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Ce manuel est basé sur une série de conférences exposées par l’au- 
teur pendant plusieurs années aux étudiants de la faculté de mathé- 
matique appliquée. 

L'ouvrage est destiné aux étudiants et aux boursiers de thèse 
des facultés de mathématique appliquée des Universités et des 
Instituts de l’enseignement supérieur. Toutefois il peut être utile 
aux ingénieurs et aux travailleurs scientifiques qui utilisent les 
méthodes statistiques dans les recherches appliquées, ainsi qu'aux 
mathématiciens spécialisés dans le domaine de la théorie des proba- 
bilités et de la statistique mathématique. 

Ce livre est orienté principalement vers les spécialistes des sciences 
appliquées. Cela a déterminé son caractère et sa structure. Il contient 
un exposé suffisamment rigoureux des bases de la théorie des proba- 
bilités et de la statistique mathématique dans le cadre des variables 
aléatoires à dimension finie ne faisant pas appel à la théorie 
de la mesure et à l'analyse fonctionnelle. 

La théorie des probabilités est construite à partir du système 
d’axiomes de A. Kolmogorov. Les axiomes ne sont introduits toute- 
fois qu'après une étude détaillée des propriétés des fréquences des 
événements et une approche de la notion de probabilité en tant que 
notion abstraite reflétant cette loi vérifiée expérimentalement du 
comportement des fréquences des événements, leur stabilité. 

Cette approche permet ainsi l'introduction des axiomes de la 
théorie des probabilités comme une généralisation naturelle des 
propriétés des fréquences des événements. 

Lors de l'étude des variables aléatoires on introduit immédiate- 
ment presque partout, surtout pour les problèmes de statistique 
mathématique, les vecteurs aléatoires. Cela renforce l'orientation 
appliquée de l’ouvragé, car dans la majorité des applications on doit 
traiter les vecteurs aléatoires multidimensionnels (ensembles finis 
de variables aléatoires scalaires). 

Pour rapprocher les méthodes exposées de leur application prati- 
que directe faisant appel à l'ordinateur, on a effectué dans ce livre 
les renvois correspondants aux programmes standards de calcul figu- 
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rant dans le « Recueil de programmes scientifiques en FORTRAN » 
de Ja firme I.B.M. [941]. 

Ce livre a été conçu tout d'abord comme un manuel de théorie 
des probabilités, mais il est devenu impératif d'inclure le matériel 
complémentaire relatif à la statistique mathématique nécessaire 
pour que les étudiants puissent réaliser leurs travaux pratiques de 
cours, leurs mémoires de fin d'étude et également leurs travaux de 
recherche scientifique. Cela fait que le livre contient, outre les élé- 
ments de la théorie des probabilités, un exposé condensé de toutes 
les parties de la statistique mathématique (se rapportant aux varia- 
bles aléatoires de dimension finie). 

Outre les questions traditionnelles d'estimation ponctuelle et 
d'estimation par intervalle et la théorie générale des estimations, on 
expose dans ce livre la méthode des approximations stochastiques, 
l'analyse de régression multiple, l’analyse de variance, l’analvse 
factorielle, la théorie de l'estimation des paramètres inconnus dans 
les équations stochastiques aux différences finies, les éléments de la 
théorie de la reconnaissance des formes et de la vérification des hvpo- 
thèses, les éléments de la théorie statistique générale de prise de déci- 
sion, les éléments de la méthode de simulation aléatoire. 

Dans le 1° chapitre, on étudie les propriétés principales des fré- 
quences des événements, on présente l'approche fréquentielle de la 
notion de probabilité et l’on considère les cas où les probabilites 
des événements peuvent être calculées directement à partir de la 
notion d'équiprobabilité des différentes issues de l'épreuve. On dé- 
finit ensuite la notion d'événement élémentaire, on formule les 
principaux axiomes de la théorie des probabilités, les notions d'’es- 
pace probabilisé, de distribution de probabilités, de probabilité 
conditionnelle, de la dépendance et de l'indépendance des événements 
et on établit les principales formules découlant directement des axio- 
mes, dans ce nombre, les formules définissant les distributions bino- 
miales et polynomiales. On déduit ensuite la distribution de Poisson. 

On considère dans le 2ème chapitre les variables aléatoires et 
leurs distributions, on étudie les principales caractéristiques des 
distributions des variables aléatoires à dimension finie, leur densité 
et leur fonction de répartition. On montre que la densité de 
probabilité en tant que fonction généralisée, comportant une 
combinaison linéaire de fonctions delta, existe pour les trois types de 
variables aléatoires que l’on rencontre dans les problèmes pratiques, 
les variables aléatoires continues, discrètes et continues-discrètes. 
On donne également un exemple de variable aléatoire dont la densité 
de probabilité n'est pas de ce type. 

Dans le 3ème chapitre, on étudie les caractéristiques numériques 
des variables aléatoires. On donne tout d’abord la définition de 
l'espérance mathématique et l’on étudie les principales propriétés 
des espérances mathématiques. On définit ensuite les moments du 
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second ordre el on étudie leurs propriétés. Après cela on définit 
les moments d'ordre quelconque pour les variables aléatoires réelles. 
Outre les moments, on définit pour les variables aléatoires scalaires 
réelles les notions de médiane et de quantiles. Le chapitre se termine 
par l'étude de la distribution normale unidimensionnelle. 

Dans le 4ièmc chapitre, on étudie les distributions et les distribu- 
tions conditionnelles des projections d’un vecteur aléatoire. On établit 
les formules définissant la densité de probabilité de projection d’un 
vecteur aléatoire et sa densité de probabilité conditionnelle pour une 
valeur fixée de là projection d’un vecteur aléatoire sur un sous-espace 
complémentaire à partir de la densité de probabilité du vecteur aléa- 
toire. On définit les notions de dépendance et d'indépendance des 
variables aléatoires. On définit également les moments condition- 
nels. On étudie la distribution normale multidimensionnelle et 
les fonctions caractéristiques des variables aléatoires. 

Dans le 5ièmc chapitre, on étudie les méthodes de calcul des lois 
de distribution des fonctions de variables aléatoires à partir de la 
distribution des variables arguments. On considère une méthode géné- 
rale pour déterminer les fonctions de répartition des fonctions des 
variables aléatoires, deux méthodes pour déterminer les densités de 
probabilités (la méthode de comparaison des éléments de probabilité 
et la méthode des fonctions delta) et la méthode de détermination 
des fonctions caractéristiques. On démontre le théorème limite pour 
les sommes des variables aléatoires indépendantes dans le cas d’une 
distribution identique des éléments de la somme. Ces méthodes géné- 
rales sont appliquées à titre d'exemple pour établir les principales 
Jois de distribution que l’on rencontre en statistique mathématique. 

Dans le Gitme chapitre, on définit tout d’abord la position du 
problème principal de la statistique mathématique, le problème de 
l'estimation des probabilités inconnues des événements, des distri- 
butions des variables aléatoires et de leurs paramètres. On considère 
ensuite les principales formes de convergence des suites de variables 
aléatoires, on donne les définitions générales se rapportant aux esti- 
mations et aux domaines de confiance et on expose les principales 
méthodes de recherche des domaines de confiance pour les paramètres 
inconnus. Après cela on étudie la fréquence en tant qu'estimation 
de la probabilité de l'événement et l'estimation des moments obtenus 
à partir des moyennes d'’échantillonnage. Le chapitre se termine par 
l'exposé des principales méthodes de vérification des hypothèses 
relatives aux paramètres des distributions. 

Dans le 7ième chapitre, on expose la théorie générale des estima- 
tions des paramètres des distributions et les principales méthodes 
de calcul des estimations, la méthode du maximum de vraisemblance 
et la méthode des moments. On étudie la procédure récurrente d’esti- 
mation de la racine de l'équation de régression et des valeurs extréma- 
les de la régression par la méthode des approximations stochastiques. 
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Dans le 8ième chapitre, on expose les principales méthodes d'’esti- 
mation des densités de probabilité et des fonctions de répartition 
des variables aléatoires et les méthodes de représentation analytique 
approchée des distributions. On expose les méthodes de vérification 
d'hypothèses relatives aux distributions d'après les tests de K. Pear- 
son, À. N. Kolmogorov et de N. V. Smirnov et on considère l’estima- 
tion des paramètres des distributions par la méthode du khi-deux 
minimum. Dans le dernier paragraphe on expose succinctement la 
méthode de simulation aléatoire en tant que méthode de calcul ap- 
prochée et outil de recherche scientifique. 

Dans le 9ièîme chapitre, on étudie les modèles statistiques de régres- 
sion. Tout d’abord on expose la méthode générale de calcul de la 
régression en moyenne quadratique dans une classe donnée de fonc- 
tions, en particulier la régression linéaire en moyenne quadratique. 
On expose ensuite les méthodes d'estimation des régressions linéaires 
(analyse de régression) et les méthodes de vérification des hypothèses 
relatives aux régressions. On introduit ensuite à partir de la théoris 
générale d'élaboration des modèles linéaires de régression, les élé- 
ments de la théorie de l'analyse de variance. 

Dans le 10!ème chapitre, on étudie des modèles statistiques de 
nature différente. On considère tout d’abord les modèles décrits 
par des équations aux différences finies, en particulier les modèles 
d'autorégression ; on expose la méthode d'estimation des suites 
de variables aléatoires définies par des équations aux différences 
finies et des paramètres inconnus dans les équations aux différences 
finies ; cette méthode est appliquée aux modèles linéaires et non 
linéaires d’autorégression. On étudie ensuite certaines méthodes 
d'élaboration de modèles factoriels (éléments de l'analyse factorielle) 
et les modèles de reconnaissance des formes. On montre la similitude 
entre certains problèmes de reconnaissance des formes et ceux de 
vérification des hypothèses relatives aux paramètres des distribu- 
tions. Dans le dernier paragraphe, on expose succinctement les 
éléments de la théorie statistique de la prise de décision (les méthodes 
d'élaboration des modèles des processus de prise de décision). 

Chaque chapitre de ce livre possède sa propre numérotation des 
paragraphes, des points, des formules et des exemples. Lors des ren- 
vois aux paragraphes, aux points, aux formules et aux exemples dans 
la limite d’un même chapitre on n'indique que leur numéro dans ce 
chapitre. S'il s’agit de renvois à des paragraphes, des points, des 
formules ou des exemples se rapportant à d’autres chapitres on note 
le numéro du chapitre corréspondant séparé du numéro du paragraphe, 
du point, de la formule ou de l’exemple par un point. Ainsi par exem- 
ple, $ 2, p. 3.4, (72) et exemple 5 signifient des renvois au paragra- 
phe 2, au point 3.4, à la formule (72) et à l'exemple 5 du même 
chapitre dans lequel ont été faits ces renvois ; $ 5.3, p. 5.2.3, (5.26) 
et exemple 95.17 signifient des renvois au paragraphe 3, au 
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point 2.3, à la formule (26) et à l’exemple 17 du chapitre 5. 

Les renvois bibliographiques sont définis par les numéros des 
sources bibliographiques figurant dans l’annexe placé en fin de ce 
livre mis entre crochets. L'auteur ne prétend en aucune mesure 
a l'exhaustivité de la bibliographie figurant en annexe. Seules 
les sources associées aux renvois figurant dans le texte ont été 
indiquées. Pour la commodité du lecteur les énoncés des princi- 
paux résultats et des principales propositions sont imprimés en 
italique. Le début et la fin des conclusions, des démonstrations et 
des raisonnements conduisant à des résultats importants sont mis 
en évidence par les signes R et <. 

Dans les chapitres 6 à 10 on ne donne qu'un exposé succinct des 
principales méthodes de la statistique mathématique moderne des 
variables aléatoires à dimension finie. Pour une étude plus profonde 
et plus complète de la statistique mathématique on peut recomman- 
der les livres de IH. Cramer [45], M. Kendall et A. Stewart [35], 
S. Wilks [1031], C. R. Rao [86], T. Anderson [1] ainsi que les ouvrages 
se rapportant à différentes branches de la statistique mathématique, 
correspondant aux renvois effectués dans les chapitres 6 à 10. 

Pour l’étude des bases mathématiques de la théorie des probabili- 
tés nous recommandons les manuels de M. Loève [51], J. Neveu 
[64] et P. Hennequin et A. Tortr [1191]. 

En ce qui concerne l'analyse mathématique, nous recommandons 
les livres de V. Smirnov {96, tome 1, tome 2], G. Fikhtengolts [1091], 
S. Nikolski [69], pour l'algèbre linéaire nous conseillons les livres 
de V. Smirnov [96, tome 3, partie 1}, A. Maltsev [56], L. Golovina 
[18], pour la théorie des matrices les livres de F. Gantmakher [16], 
P. Lankaster [48], M. Marcus et H. Minc [571]. 

Le dernier paragraphe du chapitre 8 (« La méthode de simulation 
aléatoire ») et les chapitres 9, 10 ont été écrits avec la participation 
active de 1. Sinitsyne qui nous a aidé également à polir la rédaction 
de tout le manuscrit. Sans son aide ce livre n'aurait certainement 
pas encore été écrit. C'est pour moi un devoir agréable d'exprimer 
à I. Sinitsyne ma profonde reconnaissance pour son aide inestimable. 

Je tiens également à exprimer ma profonde reconnaissance 
à N. Andréev et N. Sotski pour les précieuses remarques et les discus- 
sions qui ont contribué à améliorer notablement le manuscrit; 
à 1. Sinitsyna ayant assuré la frappe des différentes variantes du ma- 
nuscrit, N. Bélova, à O. Timokhina, A. Piounikhine, I. Silouianova 
et N. Tchouliukanova pour l’aide apportée à la mise en forme du 
manuscrit, à S. Vilenkine pour ses conseils relatifs aux aspects numé- 
riques de la réalisation des méthodes exposées dans ce livre et à l'or- 
ganisation des calculs sur ordinateur pour les différents exemples. 


V. Pugachev 
Moscou Avril 1978 


CHAPITRE PREMIER 


PROBABILITÉS DES ÉVÉNEMENTS 


$ 1. Phénomènes aléatoires 


1.1. Exemples de phénomènes aléatoires. Au cours de son activité 
pratique l’homme se heurte à chaque pas aux phénomènes aléatoires. 
Aucun processus ne se déroule sans eux. L'exemple le plus simple de 
phénomènes aléatoires est fourni par les erreurs de mesure. Nous 
savons qu'il n'existe pas de mesures absolument précises et que plus 
l'instrument de mesure est précis plus cela est sensible. En mesurant 
un même objet plusieurs fois par exemple en le pesant sur des balances 
analytiques, nous obtenons toujours des résultats proches, mais dif- 
férents. Cela s'explique par le fait que le résultat de chaque mesure 
contient une erreur aléatoire et que les résultats des différentes mesu- 
res contiennent différentes erreurs. Il est par principe impossible de 
prévoir quelle sera l’erreur au cours d’une mesure concrète et même 
de la déterminer après la mesure. En effectuant l'étude expérimen- 
tale d'un phénomène quelconque et en systématisant les résultats 
sous forme de dépendances graphiques, nous vérifions le fait que les 
points expérimentaux, s'ils sont suffisamment nombreux, ne sont 
jamais sur une même courbe mais emplissent toujours une certaine 
bande, autrement dit on constate une dispersion aléatoire des points 
expérimentaux. Cette dispersion s'explique aussi bien par les erreurs 
de mesure que par l’action d'autres facteurs aléatoires. 

Un autre exemple de phénomènes aléatoires peut être fourni 
par la dispersion des obus ; les obus ne tombent jamais au même point, 
même quand le tir est effectué sur un seul et même point. Il semble- 
rait que les conditions sont identiques pour tous les tirs. Toutefois 
les obus effectuent des trajectoires différentes et tombent en diffé- 
rents points. Il est par principe impossible de prévoir à l'avance en 
quel point précis tombera un obus donné pour cette raison que nous 
ne pouvons pas connaître avec une précision absolue les paramètres 
de l'état de l'atmosphère en tous les points de la trajectoire suivie 
par l'obus ; or ces paramètres conditionnent les forces aérodynamiques 
et leurs moments qui agissent sur l’obus. 

Indiquons en qualité de 3ième exemple de phénomènes aléatoires 
les pannes dans différents dispositifs techniques. Aussi perfectionnée 
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que soit la technique actuelle on rencontre toujours des pannes dans 
tel ou tel dispositif. La panne d'un dispositif est un phénomène aléa- 
toire. Il est impossible de prévoir à l'avance si une panne aura lieu 
ou non et si elle a lieu, à quel instant précis cela se passera-t-il? 

On peut rapporter également aux phénomènes aléatoires les 
bruits qui se manifestent lors de la réception des ondes radio. Ce qu'on 
appelle l’étherest toujours saturé par diverses radiations électromagné- 
tiques, dont les sources sont des décharges électriques dans l’atmo- 
sphère, le mouvement de l'électricité atmosphérique, le fonctionne- 
ment des dispositifs électriques créés par l'homme, etc. C’est pourquoi 
quelles que soient les précautions avec lesquelles on localise sur 
notre récepteur la station qui nous intéresse, on aura loujours des 
ondes parasites qui gêneront la réception de la station et particulière- 
ment les stations éloignées. Cela se manifeste dans le fait qu'outre 
l'émission que nous recevons, nous entendons sur notre poste un bruit 
parasite, un grésillement. Ce phénomène bien connu de tous est éga- 
lement un phénomène aléatoire car il est impossible de prévoir à 
l'avance quand et quelle émission électromagnétique parasite affecte 
le poste de radio. Il est par principe impossible d'éviter que des émis- 
sions parasites affectent le poste de radio car il est destiné à la récep- 
tion des émissions électromagnétiques faibles. 

Le « roulis » que nous subissons parfois au cours des vols sur 
les avions est également un phénomène aléatoire. Il représente les 
oscillations aléatoires de l’avion provoquées par les rafales aléatoires 
du vent dans une atmosphère turbulente. 

1.2. La nature des phénomènes aléatoires. Comme tous phénomè- 
nes, les phénomènes aléatoires sont déterminés par des causes bien 
définies. Tous les phénomènes du monde qui nous entoure sont inter- 
dépendants et influent les uns sur les autres (loi de l’interdépendance 
complète des phénomènes). C'est pourquoi tout phénomène obser- 
vable est lié par une relation de causalité avec une infinité d’autres 
phénomènes, de sorte que son déroulement dépend d'une infinité 
de facteurs. Il est par principe impossible de suivre cette infinité 
d'interliaisons et de déterminer l’action de chacune d'entre elles. 
C'est pourquoi, en étudiant tel ou tel phénomène, l’homme se limite 
uniquement aux facteurs principaux, prédéterminant son déroule- 
ment, et néglige une énorme quantité de phénomènes secondaires. 
Cela lui donne la possibilité de pénétrer plus profondément dans la 
nature même du phénomène, et d'en établir les lois. Par ailleurs en 
procédant de la sorte l’homme appauvrit le phénomène, le schématise. 
En d’autres termes, il remplace le phénomène étudié par son modèle 
simplifié de façon adéquate. Il en résulte que toute loi scientifique 
reflète la nature du phénomène étudié, mais est notablement plus 
pauvre que le phénomène lui-même. Aucune loi ne peut caractériser 
le phénomène dans son aspect multiforme, dans toute sa complexité. 
Les écarts que l’on observe dans les phénomènes réels par rapport 
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aux lois qui les conditionnent sont provoqués par l'action conjuguée 
d'une infinité de facteurs que l’on a négligés et représentent ainsi 
des phénomènes aléatoires. 

Lors de l'étude expérimentale d’un phénomène quelconque afin 
d’en déterminer les lois qui le conditionnent, on doit l’observer un 
grand nombre de fois dans des conditions identiques. Nous compre- 
nons ici par le vocable « conditions identiques » des valeurs identi- 
ques de toutes les caractéristiques numériques des facteurs contrô- 
lables. Tous les facteurs non contrôlubles seront évidemment diffé- 
rents. Cela fait que l’action des facteurs contrôlables sera pratiquement 
identique au cours des différentes observations d'un seul et même 
phénomène. C'est en cela que se manifestent les lois régissant le 
phénomène concret. Les écarts aléatoires de ces lois provoqués par 
l’action des phénomènes non contrôlables seront différents pour diffé- 
rentes observations et il est par principe absolument impossible 
de prévoir à l’avance quels seront ces écarts au cours d’une observa- 
tion concrète. | 

Le rôle de ce caractère aléatoire est différent pour différents phé- 
nomènes. Dans certains phénomènes, les écarts aléatoires sont telle- 
ment faibles que l’on peut ne pas en tenir compte. Toutefois, il 
existe également des phénomènes pour lesquels aucune loi ne peut 
être mise en évidence et pour lesquels le caractère aléatoire est pré- 
dominant. Un exemple d'un phénomène de ce genre est fourni par 
le mouvement d’une petite particule de matière solide suspendue 
dans un liquide, ce que l’on appelle le mouvement brownien. Sous 
l'action des chocs d’une grande quantité de molécules en mouvement 
du liquide la particule effectue un mouvement désordonné sans 
aucune apparence d'organisation. Pour des phénomènes de ce genre 
le caractère aléatoire constitue précisément la loi du phénomène. 

Au cours de l’observation répétée des phénomènes aléatoires on 
peut mettre en évidence dans ces mêmes phénomènes certaines lois 
bien définies. En étudiant ces lois, on peut dans une certaine mesure 
régir les phénomènes aléatoires, limiter leur influence, prévoir les 
résultats de leur action, et même les utiliser rationnellement au 
cours d’une activité pratique. Par exemple, on peut concevoir des 
systèmes de mesure possédant la précision maximale accessible, des 
postes de radio avec des dispositifs anti-bruit pour lesquels le niveau 
de bruit sera minimisé, des systèmes de contrôle du mouvement 
des appareils volants assurant la précision la plus grande possible 
du vol, ou encore la diminution de l’action du « roulis » des avions. 
On peut également concevoir des systèmes techniques possédant une 
fiabilité donnée. 

1.3. Les phénomènes aléatoires de masse. Il est clair de ce qui 
vient d'être dit que les lois des phénomènes aléatoires ne peuvent 
se manifester que lors des observations répétées un grand nombre 
de fois. On peut en conclure que seuls peuvent faire l’objet d’une étude 
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les phénomènes aléatoires que l’on peut, au moins en principe, 
observer un grand nombre de fois, un nombre pratiquement illimité 
de fois. De tels phénomènes aléatoires sont appelés phénomènes 
aléatoires de masse. On doit ici remarquer que pour l'étude des phé- 
nomènes aléatoires il n’est absolument pas nécessaire que l’on puisse 
tous les observer en fait un grand nombre de fois. Après avoir étudié 
les lois des phénomènes aléatoires les plus simples et après avoir 
construit à la base de cette étude une théorie correspondante, on 
peut ensuite étudier théoriquement des phénomènes aléatoires com- 
plexes et dans ce nombre des phénomènes aléatoires que l’on ne peut 
pas observer directement (mais que l’on peut en principe par la 
pensée observer un nombre infini de fois). Ainsi au cours de l’établis- 
sement du projet d’un vaisseau cosmique prévu pour un vol unique 
on peut étudier la fiabilité de tout le système de moyens durant 
ce vol, effectuer les calculs de telle sorte que l’on obtienne une grande 
assurance pratique que tous ces moyens fonctionneront sans panne et 
que le vol se passera dans les meilleures conditions. La force de la 
science consiste précisément dans le fait qu'étant basée sur un 
petit nombre de faits très simples pris de l’observalion directe elle 
permet de découvrir et de prévoir de nouveaux faits par la voie théo- 
rique sans que soient nécessaires des observations directes. 

1.4. L'objet de la théorie des probabilités. L'étude des lois régis- 
sant les phénomènes aléatoires de masse est réalisée par une science 
mathématique particulière que l’on appelle la fhéorie des probabilités. 
Les méthodes de la théorie des probabilités que l’on appelle proba- 
bilistes ou statistiques donnent la possibilité d'effectuer des calculs 
permettant de formuler des conclusions pratiques déterminées au 
sujet des phénomènes aléatoires. La théorie des probabilités comme 
toute science appliquée a besoin pour les calculs de certaines don- 
nées expérimentales initiales. Le chapitre de la théorie des proba- 
bilités étudiant les méthodes de traitement des résultats des épreu- 
ves et d'extraction des données nécessaires est appelé statistique 
mathématique. | 

La théorie des probabilités est un puissant instrument de recher- 
che et c'est pourquoi elle trouve une grande quantité d’applica- 
tions les plus diverses dans les domaines les plus variés de la science 
et de la pratique d'ingénieur. Son domaine d'application s'élargit 
continuellement. Au cours du siècle passé la théorie des probabilités 
était appliquée dans la théorie de la mesure, dans la théorie du tir 
et en physique. Au cours de notre siècle elle a successivement pénétré 
en aérodynamique et en hydrodynamique, en radiotechnique, dans 
la théorie de la gestion, dans la dynamique du vol, dans la théorie 
des télécommunications, dans la mécanique des constructions, dans 
la théorie des mécanismes et des machines, dans la théorie des 
vagues et du roulis des bateaux, dans la météorologie et dans de 
nombreux autres domaines de la connaissance. Il est difficile aujour- 
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d’hui de nommer une branche de la science où l'on n'utilise pas les 
méthodes probabilistes. Dans la théorie moderne des processus de 
contrôle, dans la radiotechnique théorique la théorie des probabili- 
tés est devenue le principal instrument de recherche. Toute la théorie 
des systèmes complexes modernes et des processus de contrôle est 
basée sur l'application des méthodes statistiques. La théorie des 
probabilités est le fondement de la théorie de la fiabilité des systè- 
mes techniques, ainsi que de nombreuses autres disciplines scienti- 
fiques. 

Ce processus d'élargissement continu des domaines d'’applica- 
tion de la théorie des probabilités est tout à fait naturel et s’expli- 
que aisément. Le fait est qu’au début du développement de chaque 
branche de la science l’homme s'efforce de découvrir les principales 
lois de cette science et il se contente d’une coïncidence assez grossière 
entre les résultats du calcul et les données de l'expérience. En outre, 
la technique de l'expérience au stade initial n’est pas parfaite et 
ne peut assurer une précision élevée des mesures. Au fur et à mesure 
du développement de la science les exigences envers la précision 
des calculs s’élèvent, la technique de l'expérience se perfectionne, 
et les phénomènes aléatoires que l’on pouvait négliger au début 
du développement d'une branche donnée de la science commencent 
à jouer un rôle de plus en plus déterminant. Ïl en résulte que la 
vieille théorie commence à diverger de plus en plus avec les données 
expérimentales, et la nécessité apparaît d'avoir recours à la théorie 
des probabilités. La théorie des probabilités dans tous les cas de ce 
genre donne immanquablement une nouvelle théorie qui décrit 
d'une manière plus précise les phénomènes étudiés et assure une 
meilleure coïncidence des résultats des calculs théoriques avec les 
données expérimentales. C’est ce qui est arrivé au début des années 
30 avec la théorie de la turbulence en aérodynamique et dans les 
années 40 avec la théorie de la gestion automatique et la radiotech- 
nique, et ensuite avec d’autres théories scientifiques appliquées. 

La particularité des méthodes probabilistes réside dans le fait 
qu'elles considèrent le phénomène étudié globalement, elles étudient 
les résultats de l’action conjuguée de toutes les liaisons causales 
qu'il n'est pas possible de suivre séparément. 


$ 2. Approche statistique de la description 
des phénomènes aléatoires 


2.1. Epreuve, événement, variable aléatoire. Le point de départ 
pour l'élaboration de la théorie des probabilités, de mème que pour 
toute autre discipline scientifique théorique, est constitué par cer- 
tains faits expérimentaux sur la base desquels sont formulées les 
notions abstraites correspondantes. Pour exposer ces faits, il est 
nécessaire d'introduire certaines notions. 
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Nous appellerons épreuves l'observation d'un phénomène quel- 
conque au cours de la réalisation d’un certain complexe de condi- 
tions et d'actions qui doivent étre rigoureusement vérifiées chaque 
fois au cours de la répétition de notre expérience. L'observation 
d'un même phénomène en présence d’un autre complexe de condi- 
tions et d'actions sera une autre épreuve. 

Les résultats de l’épreuve peuvent être caractérisés qualitative- 
ment et quantitativement. 

La caractéristique qualitative de l’épreuve se ramène à l’enre- 
gistrement d’un certain fait, c’est-à-dire à déterminer si les résul- 
tats de l'épreuve possèdent ou non une certaine propriété. Tout 
fait de ce genre est appelé événement. On dit alors que « l’événe- 
ment a eu lieu » ou bien « l'événement n’a pas eu lieu » à la suite 
de l'épreuve. 

Des exemples d'événements sont donnés par les pannes d’un 
dispositif au cours d'un certain intervalle de temps, le fait d'avoir 
touché ou raté la cible lors d'un tir, le fait d’avoir touché m fois 
la cible au cours de n tirs. 

Les événements seront notés par des lettres latines majuscules, 
habituellement par les premières lettres de l’alphabet, par exemple 
A, B,C. 

La caractéristique quantitative de l'épreuve consiste à déter- 
miner les valeurs de certaines grandeurs obtenues par suite de cette 
épreuve. Ces grandeurs qui peuvent prendre au cours de l'épreuve 
diverses valeurs mais telles qu'avant l'épreuve il est impossible 
de les prévoir sont appelées variables aléatoires. 

Les exemples de variables aléatoires sont donnés par les erreurs 
et les résultats des mesures, par le temps de fonctionnement sans 
panne d’un instrument ou d'un dispositif, par la taille et le poids 
d’une personne choisie au hasard, par les coordonnées du point 
d'impact au cours d'un tir, par le nombre de fois où l’on touche 
une cible au cours de 7 tirs. 

Nous noterons les variables aléatoires par des lettres majuscules, 
en général par les dernières lettres de l'alphabet latin, et leurs va- 
leurs concrètes par des lettres minuscules correspondantes. Par 
exemple, nous noterons les variables aléatoires par X, }, Z et leurs 
valeurs concrètes obtenues par suite de l'épreuve respectivement 
par x, y, z. Ces valeurs sont appelées les valeurs possibles ou les 
réalisations des variables aléatoires À, Ÿ, 7. 

À chaque variable aléatoire on peut associer divers événements. 
Un exemple typique d'événement relié à une variable aléatoire est 
constitué par l'événement correspondant au fait que la variable 
aléatoire prend au cours de l’épreuve une valeur quelconque apparte- 
nant à un ensemble donné. Un tel événement est appelé succinc- 
tement l'appartenance d'une variable aléatoire à un ensemble 
donné. 
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2.2. La fréquence d’un événement. Il semble naturel de comparer 
les événements du point de vue de la fréquence de leur apparition 
au cours de la répétition d’une épreuve donnée. Si au cours de la 
répétition d’une épreuve, un événement se produit plus fréquemment 
qu'un autre, on dit que le premier est plus probable que 
le second. Il est clair que pour la comparaison des événements 
il est nécessaire de supposer qu'une épreuve donnée peut être répé- 
tée indéfiniment. Dans ce qui suit on emploiera l'expression « on 
effectue n épreuves » au lieu de « une épreuve donnée a été réalisée 
n fois ». 

On appelle fréquence de l'événement le rapport du nombre de 
ses réalisations au nombre de toutes les épreuves effectuées. 

Ainsi, si au cours de n épreuves l'événement À a été réalisé m 
fois, alors sa fréquence dans cette série d'épreuves est égale 
à m/n. 

2.3. La fréquence conditionnelle. Dans certains cas la fréquence 
d'un événement doit être déterminée en présence d’une condition 
complémentaire, suivant laquelle un autre événement a eu lieu. 
Pour déterminer la fréquence de l’événement À sous la condition 
qu'a été réalisé l'événement B, il faut tenir compte non pas de toutes 
les épreuves réalisées, mais seulement de celles au cours desquelles 
l'événement B a eu lieu. | 

Ainsi, si au cours de x épreuves réalisées l'événement B est 
apparu au cours de m épreuves, et que pour k de m épreuves a été réali- 
sé l'événement À, alors la fréquence de l’événement 4, à condition 
que l'événement B est réalisé, est égale au rapport k/m. En règle 
générale, cette fréquence ne coïncide pas avec la fréquence de l'événe- 
ment À calculée en tenant compte de toutes les nr épreuves réalisées. 

La fréquence de l'événement À calculée en ne tenant compte que 
des épreuves au cours desquelles est apparu l'événement B est appelée 
fréquence conditionnelle de l’événement À par rapport à l’événe- 
ment Z. 

2.4. Propriétés des fréquences. L'événement est dit impossible 
et noté @ s’il ne peut avoir lieu au cours de l’épreuve ; l'événement 
est dit certain et noté Q s’il doit absolument avoir lieu au cours de 
l'épreuve, c’est-à-dire s’il ne peut ne pas avoir lieu. 

Les événements 4,, ..., À, sont appelés incompatibles au cours 
d’une épreuve donnée, si au cours de cette épreuve aucun couple 
d'entre eux ne peut être réalisé simultanément. Par exemple, les 
événements « cible touchée » et « cible ratée » au cours d’un seul 
tir, les événements « amener le 1, ou le 2, ou le 3 » au cours du lance- 
ment d’un seul dé ne peuvent être réalisés simultanément. 

Deux événements incompatibles au cours d’une épreuve peuvent 
s'avérer compatibles au cours d’une autre épreuve. Par exemple, les 
événements « cible touchée » et « cible ratée » sont incompatibles 
au cours d’un seul tir. Toutefois ils sont compatibles si on consi- 
dère que l'épreuve se compose de deux tirs. 


20 PROBABILITES DES EVENEMENTS [CH. 1 


Après avoir donné les définitions correspondantes, on peut pas- 
ser à l'étude des principales propriétés des fréquences des événe- 
ments. 

4) La fréquence de tout événement est un nombre non négatif 
ne dépassant pas 1, la fréquence de l’événement impossible étant égale 
à O0, et la fréquence de l'événement certain étant égale à 1. 

2) La fréquence d'apparition de l’un quelconque de plusieurs 
événements incompatibles est égale à la somme de leurs fréquences. 
Cela découle directement du fait que le nombre de réalisations d’un 
événement complexe représentant la réalisation de l’un quelconque 
de plusieurs événements incompatibles est égal à la somme des 
nombres des réalisations de ces événements. 

3) La fréquence de la réalisation simullanée des deux événe- 
ments À et B est égale à la fréquence de l'un d'eux multipliée par 
la fréquence conditionnelle de l’autre. Pour la démonstration, il 
suffit de remarquer que si au cours de nr épreuves À a été réalisé 
m fois et B — k fois, dont L fois avec À et À — I fois sans À, alors la 
fréquence de la réalisation simultanée de À et B est égale à l/n, 
la fréquence de À est égale à m/n et la fréquence conditionnelle de 
B par rapport à À est égale à L/m. 

Il est évident que si la fréquence d'un événement au cours d’une 
série donnée d'épreuves est égale à O (ou à 1), alors il ne découle 
pas de cela que l'événement est impossible (certain). Par exemple, 
si au cours de 5 lancers d’une pièce de monnaie l’événement pile 
ne s’est jamais manifesté, cela ne traduit pas le fait que l'apparition 
de pile est un événement impossible. 

2.5. Probabilité d’un événement. Un fait remarquable a été 
établi expérimentalement et constitue la loi principale que l’on 
observe dans les phénomènes aléatoires de masse, c'est la stabilité 
des fréquences des événements quand le nombre d'épreuves est très 
erand. Si au cours d'un petit nombre d’épreuves la fréquence d’un 
événement prend diverses valeurs absolument aléatoires, par contre 
quand le nombre d'épreuves augmente indéfiniment il se dessine 
une tendance de la fréquence à se stabiliser autour d'une certaine 
valeur caractéristique de l’événement considéré. 

Supposons qu'une certaine épreuve soit répétée indéfiniment 
et qu'après chaque épreuve on calcule la fréquence d'un événement 
en tenant compte de toutes les épreuves passées. On découvre alors 
qu’au début, quand le nombre d'épreuves est assez petit, le résul- 
tat aléatoire de chaque épreuve modifie notablement la fréquence de 
l'événement. Toutefois au fur et à mesure de l’augmentation du 
nombre d'épreuves l'influence des résultats de chaque épreuve di- 
minue. Par exemple, le résultat de la millième épreuve modifie la 
fréquence d’une valeur inférieure à 0,001. Il semblerait que la fré- 
quence tende à ne plus être aléatoire et à se stabiliser autour d'une 
certaine valeur. 
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La stabilité des fréquences des événements permet de considérer 
que chaque événement est associé à un certain nombre, la proba- 
bilité de cet événement autour duquel tend à se stabiliser la fré- 
quence. Par exemple, la fréquence d'apparition de l'événement 
pile au cours du lancement d’une pièce de monnaie tend évidemment 
à se stabiliser au cours de la valeur 1/2. Par conséquent, la proba- 
bilité d'apparition de l'événement pile est égale à 1/2. 

La probabilité d'un événement À est notée P (4). Cela n'exclut 
évidemment pas l’utilisation de notations simplifiées, par exemple 
P (A) = p, etc. 

La notion de probabilité d’un événement est une notion primaire 
de la théorie des probabilités et par conséquent ne nécessite pas de 
définition; elle représente le résultat de l’abstraction nécessaire 
pour l'élaboration de n'importe quelle théorie. En se démarquant 
des oscillations complexes et peu importantes de la fréquence au 
cours de la répétition infinie des épreuves et en conservant la loi 
primordiale essentielle, que l’on observe dans le phénomène considéré 
qui est ia stabilité des fréquences, nous parvenons à introduire la 
notion abstraite de probabilité d’un événement. 

La probabilité d’un événement dans une épreuve donnée constitue 
sa caractéristique objective. Elle a une valeur bien déterminée 
indépendamment du fait que nous allons ou non effectuer une série 
d'épreuves. 

Exactement de la même façon, la notion empirique de fréquence 
conditionnelle conduit à la notion abstraite de la probabilité condi- 
lionnelle. 

2.6. La moyenne d’échantillonnage. Le problème principal de 
l'étude expérimentale des variables aléatoires consiste à établir 
comment se distribuent les points expérimentaux sur l'axe numéri- 
que, sur le plan ou dans l’espace. 

L'ensemble des valeurs des variables observées obtenues à la 
suite des épreuves est appelé échantillon. 

Quand un échantillon a été obtenu, il faut tout d’abord déter- 
miner la position des valeurs de la variable aléatoire scalaire sur 
l'axe numérique et leur dispersion, c’est-à-dire les dimensions du 
domaine qu'elles occupent. 

On adopte habituellement en tant que caractéristique de posi- 
tion des points expérimentaux la moyenne arithmétique des valeurs 
de la variable aléatoire, que l’on appelle la moyenne d'échantillonnage. 

Supposons que la variable aléatoire X a pris au cours des nr 
épreuves les valeurs x;, . .., x,. Dans ce cas la moyenne d’échantil- 
lonnage est déterminée par la formule 


z= + Y ln. (1) 


29 PROBABILITES DES EVENEMENTS [CH. 1 


2.7. La variance ct l’écart quadratique moyen d’échantillonnage. 
On adopte habituellement en qualité de caractéristique expéri- 
mentale de la dispersion des valeurs d'une variable aléatoire scalaire 
Ja moyenne arithmétique des carrés des écarts des valeurs expéri- 
mentales de la variable aléatoire à la moyenne d'’échantillonnage. 
Cette caractéristique est appelée la variance d'échantillonnage de 
la variable aléatoire. 

Si au cours de » épreuves la variable aléatoire X a pris les valeurs 
Lis + + + Zn, Alors sa variance d’échantillonnage est déterminée par 
la formule 


+ D (zx — 2)°. (2) 


hk=—1 


Le défaut de la variance d’échantillonnage du point de vue 
pratique est l'absence d'une possibilité de la représenter visuelle- 
ment, car elle a la dimension du carré de la variable aléatoire. C’est 
pourquoi en pratique en tant que caractéristique de dispersion des 
valeurs de la variable aléatoire on adopte habituellement l'écart 
quadratique moyen (ou écart-type) d'échantillonnage qui représente 
Ja racine carrée positive de la variance d'’échantillonnage : 


= + di. 


Pour les calculs pratiques, la formule (2) est souvent mise sous une 
forme plus commode. Compte tenu de la formule ({) 


LL n LL 71 
NT D à 2 FES © TE ! 0 
(tx) = D ai —2x À x tn =) ri —nzr!?, 
h=1 k=1 h=1 k==1 
on peut mettre la formule (2) sous la forme 


n 

| D] 9 . 

a LS ar e 
k-:1 


Pour éviter la différence des nombres élevés, en cas de néces- 
sité, on retranche alors de toutes les valeurs expérimentales x;, . .. 
... ZA Un nombre arbitraire situé au milieu de l'intervalle occupé 
par ces valeurs (la règle du «0 fictif »). 

2.8. La méthode des moindres carrés. Quand on étudie plusieurs 
variables aléatoires on doit calculer, outre leur moyenne et leur 
variance d’échantillonnage, certaines caractéristiques de dépendance 
entre elles. 

Pour rechercher les dépendances approchées entre les grandeurs 
étudiées expérimentalement on utilise habituellement la méthode 
des moindres carrés. 

Supposons que l'on doife trouver la dépendance entre les varia- 
bles observées x et y (nc n nécessairement aléatoires). Pour cela on 
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choisit habituellement une fonction adéquate, dépendant de plu- 
sicurs paramètres @ (x; C1, . . -, Cx), par exemple une combinaison 
linéaire de V fonctions bien définies comportant des coefficients 
indéterminés et on choisit les coefficients c,, . .., c de telle sorte 
que la somme des carrés des erreurs de la dépendance approchée 
y = px; c, - -., Cn) soit la plus petite possible pour tous les 
points expérimentaux : 


n 
2 [yn — trs Ci -.., CN) = min. 
à = 


C'est le principe de la méthode des moindres carrés. 

Pour minimiser 6, on peut utiliser différentes méthodes de recher- 
che de l’extrémum d’une fonction suivant le procédé de définition 
de la fonction et la complexité de son calcul. En particulier, on 
peut utiliser la méthode habituelle consistant à égaler à O les pre- 
mières dérivées de Ô parrapportàc;, ..., cet à résoudre lesystème 
des équations obtenues par rapport à c,, ..., cn. On étudie ensuite 
le comportement de la fonction Ô dans le voisinage de la solution 
trouvée. 

2.9. Covariances et coefficients de corrélation empiriques (d’échan- 
tillonnage). Supposons que les variables aléatoires X et Y aient pris 
au cours de n épreuves les couples de valeurs zx,, ÿj, - . .; Zn, Yn. 
Pour trouver une caractéristique adéquate de dépendance entre les 
variables X et Ÿ, choisissons, à l’aide de la méthode des moindres 
carrés, la meilleure dépendance linéaire entre Y et X de la forme 


y—y=c(z—x), (4) 
où z et y sont respectivement les moyennes d'échantillonnage des 
variables X et Y. 

Pour déterminer le coefficient c dans (4) par la méthode des moin- 
dres carrés, égalons à 0 la dérivée par rapport à c de la somme des 
carrés des erreurs pour tous les points expérimentaux: 


Ô — à UA — y— C (za — 2)f°. 


En résolvant l'équation obtenue par rapport à c, nous trouvons 
en vertu de (2) 


D) (h—2) (Un —y) 


n 
hk=1 1 = _ 
CE ———— © ne Di (mn — 2) (x —v). 
D) (x —3} h=1 
Rk=1 


La grandeur 


Zu = _ DC — 2) (yx — y) (0) 
k=1 
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est appelée covariance empirique (d'échantillonnage) des variables 
X et Ÿ. On adopte en qualité de mesure de la dépendance entre 
X et Ÿ la grandeur sans dimension 


à Re key = key (6) 
207  Vdfd* 

appelée coefficient de corrélation empirique (d’échantillonnage) des 

variables X, Y. 


Comme 
ñn ñn n n 
ù (Lx — Z) (Ye — 4) 2 TyYn — TT à Uk V2 Th + ATY — 
= == = = 


n 
= D) Tiÿn —nzy, 
k== 1 
la formule (5) peut être mise sous la forme 


he 


n 
1 —— 
UT D ThYÿh — Ty: (7) 
Rk=1 


C'est cette formule qui est habituellement utilisée en pratique. 
Dans ce cas, si cela est nécessaire, on retranche des coordonnées de 
tous les points expérimentaux les coordonnées correspondantes d’un 
point quelconque situé au milieu du domaine occupé par les points 
expérimentaux afin d’ “éviter la différence des valeurs proches. 


Les cinq nombres x, ÿ, dr dÿ, K+, ou x, y, OX Op lxy don- 
nent une caractéristique grossière de la distribution des points expé- 
rimentaux sur un plan. Exactement de la même façon, la distribu- 
tion des points expérimentaux dans un espace à m dimensions, obte- 
nue par l'observation simultanée de m variables aléatoires, peut 
être caractérisée par des moyennes, des variances (erreurs quadrati- 
ques moyennes) et des covariances (coefficients de corrélation) 
d’échantillonnage *). 

2.10. Histogramme. Pour obtenir une représentation plus com- 
plète de la distribution des points expérimentaux on partage habi- 
tuellement le domaine qu'ils occupent en intervalles (rectangles, 
parallélépipèdes) et on calcule Ia fréquence d'appartenance des 
valeurs expérimentales à ces intervalles (rectangles, parallélépipèdes). 
En divisant ces fréquences par les longueurs des intervalles (les aires 
de rectangles, les volumes des parallélépipèdes), on obtient les densi- 


*) Les calculs des moyennes, des variances, des covariances et des cocffi- 
cients de corrélation empiriques (d'échantillonnage) peuvent être réalisés avec le 
programme standard CORRE du « Recueil de programmes scientifiques en 
FORTRAN » [94]. 
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tés relatives des points expérimentaux dans les parties correspon- 
dantes du domaine occupé par les points expérimentaux. La distri- 
bution des points expérimentaux obtenue de cette manière peut 
être représentée graphiquement en construisant sur chaque inter- 
valle un rectangle dont la hauteur est égale à la valeur de la densité 
relative des points expérimentaux sur cet intervalle (fig. 1). La 
courbe en escalier obtenue de cette manière est appelée histogramme. 


Fig. 1. 


Lors du calcul d’un histogramme, il est recommandé de choisir 
les intervalles (rectangles, parallélépipèdes) de telle sorte que dans 
chaque intervalle il y ait au moins 10 points (pour que cela soit 
vérifié on peut choisir des intervalles de longueurs différentes). 
Il est clair que l’on peut construire un histogramme seulement quand 
on dispose d’un nombre suffisamment grand de points expérimen- 
taux (pour un histogramme unidimensionnel au moins 100 points) *). 

2.11. Echantillon groupé. Si l on veut, parallèlement à la cons- 
truction d'un histogramme, déterminer les moyennes, variances 
et covariances empiriques, alors, pour simplifier les calculs, on 
considère habituellement que tous les points expérimentaux appar- 
tenant à un intervalle donné (rectangle) coïncident avec son centre. 
Le nouvel échantillon obtenu de cette manière est appelé échantillon 
groupé. 

Quand on utilise un échantillon groupé, les formules (1)-(3), 
(5) et (7) peuvent être écrites sous la forme: 


*) La construction d'un histogramme unidimensionnel peut être réalisée à 
l'aide des programmes HIST et TAB1 du recueil [94], et pour la construction de 
l'histogramme bidimensionnel le programme TAB2. 
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r T 
Meoë= 2 pr(r—2)- À pr, (8) 
= V= 


r 


: 
k,= > Pas (Œu— 2) ys—ÿ)= 2 PuxEuYv— Ty: 
u, V=i v,u—=i 


où r désigne le nombre d'’intervalles contenant les points expéri- 


mentaux sur chacun des axes x, y; Zj, . . ., Z,, Yi, - + ., Yr Sont 
les coordonnées des centres des intervalles sur les axes correspondants, 


Pis - «+, p- sont les fréquences d'appartenance des valeurs expéri- 


mentales à ces intervalles sur l’axe x et p,,(u, v—=1,...,7r) 
sont les fréquences d'appartenance des valeurs aux rectangles associés 
à la partition du plan xy *). 

De même que la fréquence d'un événement est à la base de la 
notion abstraite de probabilité d’un événement, les caractéristiques 
expérimentales considérées des variables aléatoires sont à la base 
des notions abstraites correspondantes de la théorie des probabilités. 


$ 3 Définition directe des probabilités 


3.1. Les issues équiprobables de l’épreuve. L'exemple rapporté au 
point 2.4 d'une épreuve liée au lancer d’une pièce de monnaie montre 
que les probabilités de certains événements peuvent être aisément 
déterminées directement. Considérons le schéma général des épreuves 
de ce genre. Supposons que l'épreuve possède n issues possibles, 
de sorte que chacune de ses réalisations concrètes se termine imman- 
quablement par l’une et une seule de ces n issues possibles, et que 
l'on n’a aucune raison de considérer que lors de la répétition infinie 
de l'épreuve l’une quelconque de ces issues pourra apparaître plus 
fréquemment que n'importe quelle autre. Dans ce cas la probabilité 
de chaque issue est évidemment égale à 1/n, puisque leurs fréquences 
doivent se stabiliser au cours de la répétition de l’épreuve autour 
d'un même nombre et que leur somme doit être égale à 1. En d’autres 
termes cette épreuve possède x issues équiprobables. Dans notre 
exemple avec le lancer d’une pièce de monnaie il existe deux issues 
équiprobables de ce genre, l’apparition de pile et l'apparition de 
face, et la probabilité de chacune d'elles est égale à 1/2. 

3.2. Le schéma des cas. Supposons maintenant qu’en présence 
de 7» issues équiprobables de l'épreuve nous sommes intéressés 
par un certain événement À associé à m de ces n issues de telle sorte 
que pour chacune de ces m issues À est absolument réalisé, et qu'il 


*) Pour calculer les moyennes, les variances et certaines autres caracté- 
ristiques à partir d’un échantillon groupé unidimensionnel on peut utiliser les 
programmes MOMEN basés sur l'utilisation du sous-programme TAB1 du 
recucil [94]. 
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ne peut être réalisé pour aucune ‘autre des ñ7 — m issues restantes. 
Dans ce cas on se rend compte aisément que la probabilité de l’evé- 
nement À est égale au rapport m/n. On dit alors dans ce cas que 
l'épreuve donnée comporte n issues, dont m favorisent l'événement À. 
La probabilité de l'événement À est alors égale au rapport du nombre 
de cas favorisant l'événement À au nombre de tous les cas incompa- 
tibles équiprobables: P (4) = m/n. 


D. 


Exemple 1. L'épreuve consiste à lancer un dé à jouer en forme de 
cube dont chaque face présente un nombre compris entre 1 et 6. Cette épreuve 
comporte six cas Poche correspondant à l'apparition des nombres 1, 2, 3, 
4, 5, 6. Comme nous n'avons aucune raison de supposer que, par exemple. le 
nombre 2 peut se manifester plus fréquemment que le nombre 5, la probabilité 
d'apparition d’un nombre donné sur une face du cube. par exemple 2, est égale 
à 1/6. Considérons maintenant l'événement À qui est l’apparition d’un nombre 
pair, l'événement B qui est l'apparition d'un nombre multiple de 3 et l’événe- 
ment C qui cest l'apparition d'un nombre non inférieur à 3. Trois cas favorisent 
l'événement À, l'apparition du 2, du 4 et du 6; c'est pourquoi P (4) = 3/6 — 
— 4/2. Deux cas favorisent l'événement B, l'apparition du 3 et du 6; c'est 
pourquoi P (B) — 2/6 = 1/3. Quatre cas favorisent l'événement C, l'appari- 
tion du 3, du 4, du 5 ct du 6; c'est pourquoi P (C) = 4/6 = 2/3. 

7" Exemple 2. Une urne contient dix boules identiques, dont 3 sont 
blanches et 7 sont noires. On mélange soigneusement les boules et après cela on 
ti une boulc de l'urne. Quelle est la probabilité d'apparition d’une boule 

anche. 

Dans le cas présent nous n'avons aucune raison de supposer que lors de la 
répétition de l'épreuve une boule déterminée apparaîtra plus fréquemment 
qu'une autre. Par exemple, si les boules étaient numérotées de 1 à 10 de telle 
sorte qu il soit impossible de distinguer les boules au toucher, alors nous n'a- 
vons aucunc raison de supposer que la boule n° 1 peut apparaître au cours de la 
répétition de l'épreuve plus fréquemment que la boule n°-2 ou la boule n° 3, 
etc. C’est pourquoi nous considérons que dans cette épreuve il y a 10 cas équi- 
probables. Trois d’entre ceux favorisent l'événement « boule blanche » et sept 
d'entre eux favorisent l'événement « boule noire ». C'est pourquoi la probabili- 
té d'apparition d'une boule blanche est égale à 0,3 et la probabilité d'apparition 
d’une boule noire est égale à 0,7. 


3.3. Probabilités géométriques. Dans certains cas, où l'épreuve 
possède une quantité infinie d’issues équiprobables, les probabilités 
de certains événements peuvent être déterminées géométriquement 
comme le rapport des longueurs des segments, ou des aires ou encore 
des volumes des figures correspondantes. 


Exemple 3. Les trains du métro se succèdent dans une direction don- 
née avec un intervalle de une minute. Quelle est la probabilité qu'un passager 
doive attendre pas plus de 20 secondes un train? 

Dans le cas présent nous n'avons aucune raison de considérer un instant 
particulier de l’arrivée d’un passager dans l'intervalle entre deux trains plus 
probable qu'un autre instant. Tous les instants compris dans un intervalle de 
1 minute à moins de 20 secondes de son extrémité favorisent l'événement À qui 
nous intéresse (un délai d'attente inférieur à vingt secondes). C'est pourquoi la 
probabilité de l'événement À peut être déterminée comme le rapport des lon- 
gueurs des deux intervalles de temps: 


P (A) = 20/60 = 1/3. 
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Exemple 4. Un avion possède certains endroits très vulnérables aux 
obus d'un calibre donné de sorte qu'en cas d'impact l'avion peut être considéré 
comme détruit. Quand l'impact affecte n'importe qu'elle autre partie de l’avion 
il peut continuer son vol. La surface de la projection de l'avion sur un plan per- 
pendiculaire à la trajectoire de l'obus est de cent mètres carrés. La surface de 
la projection des parties vulnérables de l'avion est de douze mètres carrés. La 
dispersion des obus est suffisamment grande pour que l'on puisse considérer 


Fig. 2 Fig. 3 


qu'en cas d’un nombre élevé d'impacts, les points d’impact sont distribués sur 
la projection de l’avion de façon uniforme. Trouver la probabilité que l'avion 
sera détruit lors de l'impact d'un seul obus. 

Dans le cas présent il y a une infinité d’issues possibles de l'épreuve: ce 
sont les différents points d'impact sur la projection de l'avion. L'hypothèse 
d'uniformité de la distribution d’un grand nombre d'impacts sur la surface de 
projection de l’avion nous permet de considérer que tous les points d'impact 
possibles dans la limite de la projection de l'avion sont équiprobables. La pro- 
babilité d'abattre l'avion au cours d’un seul impact, égale à la probabilité 
que le point ns atteigne un endroit vulnérable quelconque, peut être 
déterminée comme le rapport de l'aire de la projection des endroits vulnérables 
à toute la surface de projection de l'avion. Il en résulte que la probabilité d'abat- 
tre l’avion avec un seul impact sera égale à 12/100 — 0,12. 

Exemple 5. On jette au hasard sur un plan sur lequel on a tracé des 
droites parallèles équidistantes l'une de l’autre de 2a un bâtonnet rectiligne de 
longueur 21. Trouver la probabilité que ce bâtonnet coupera au moins l'une 
des droites (problème de l'aiguille de Buffon). 

La position du bâtonnet par rapport aux droites peut être caractérisée par 
deux coordonnées: la distance z de son centre à la droite la plus proche, 0 < 
< r <a,ct l’angle 0 de sa pente par rapport à la droite, 0 < 0 << x/2 (fig. 2). 
Il est évident que le bâtonnet coupera au moins l’une des droites si et seulement 
si x < Lsin 0. Si l’on considère ] et r comme les coordonnées cartésicennes rec- 
tangulaires du point sur le plan, alors le domaine de tous les couples possibles 
(8, r) sera un rectangle de côtés a et x/2 (fig. 3). L'événement À correspondant 
à la réalisation de l'inégalité x < L sin 8 se produira si et seulement si le point 
(6, r) appartient au domaine hachuré, limité par en bas par la sinusoïde r — 
— l sin 6 (sur la fig. 3 on a indiqué le cas ! << a). En considérant que toutes les 
positions du point (6, r) dans les limites du rectangle sont “Au pobesses: nous 
PE calculer la probabilité recherchée d'intersection du bätonnet avec 
une des droites comme le rapport de l’aire du domaine hachuré à l'aire du 
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rectangle. Quand 1! & a cela donne P (A) = 2l/ra. Nous laissons au lecteur le 
soin de résoudre ce problème pour le cas ! >> a. On peut alors poser le problème 
de la recherche de la probabilité d’intersection de deux, trois ou d'un nombre 
plus grand de droites. 


3.4. Calcul des probabilités conditionnelles dans le schéma des cas. 
On calcule de la même façon dans le tels cas les probabilités condi- 
tionnelles. 


Exemple 6. Une urne conticnt 10 boules, dont 3 sont blanches et 
7 noires. On cxtrait l’une des boules et on ne la remet pas dans l'urne. Trouver 
la probabilité que la seconde boule sortie sera blanche si la première était blanche. 

Appelons À l'événement correspondant au fait que la première boule sortie 
est blanche, B l'événement correspondant au fait que la seconde boule sortie 
est blanche. Nous sommes intéressés dans ce cas par la probabilité conditionnel- 
le de l'événement B par rapport à l'événement 4. En tenant compte de la con- 
dition « l'événement À est réalisé ». c’est-à-dire la boule extraite est blanche, 
nous parvenons à la conclusion qu'il y a 9 cas possibles dont 2 favorisent l’évé- 
nement B. C'est pourquoi P (B | A) = 2/9. 


Exemple 7. Modifions maintenant les conditions de l'exemple pré- 
cédent. Supposons que l’on ait d’abord extrait de l’urne une boule, ct que sans 
noter sa couleur, on l'ait remise dans une autre urne. Trouver la probabilité 
que la seconde boule extraite soit blanche. 

Ici, bien que l’on sache que l’on a extrait une boule de l’urne, 10 cas sont 
possibles, car on ne sait pas quel type de boule précisément a été extrait. De ces 
10 cas, 3 favorisent l'apparition d’une boule blanche. Par conséquent, la pro- 
babilité d'apparition d'une boule blanche reste égale à 3/10. Pour que ceci soit 
parfaitement clair, supposons que nous n'ayons pas extrait une boule de l'urne 
mais 9 de ces 10 boules, et que, sans noter leur couleur, nous les avons remises 
dans une autre urne. Il reste alors une seule boule dans l’urne, mais cela peut 
être l’une quelconque des 10 boules initiales. C'est pourquoi bien que dans l’ur- 
ne il n'y ait qu'une boule il y a encore 10 cas Possible et par conséquent 3 d'en- 
tre eux favorisent l’apparition de la boule blanche. 

Ainsi, bien que l'on ait extrait une partie des boules de l’urne, il s’agit 
dans ce problème de la probabilité non conditionnelle d'apparition d'une boule 
blanche. Cela s'explique par le fait qu’il n'y a aucune condition complémentaire 
pour celte épreuve, de sorte que la probabilité d'apparition d'une boule blanche 
n'a pas été modifiée après l'extraction de l’urne d'une partie des boules. La 
condition sous laquelle la probabilité d'un événement devient une probabilité 
conditionnelle est toujours la manifestation d'un certain événement, ou l'hy- 
pothèse suivant laquelle cet événement a été réalisé. C'est pourquoi l’enlève- 
ment d’une partie des boules est insuffisant pour que l'on puisse parler ici de 
probabilité conditionnelle. 11 faut encore effectuer unc observation et déterminer 
quel type de boule précisément a été enlevé de l’urne ou bien alors faire une 
hypothèse au sujet du type de boules manquantes. 

Exemple 8. Une urne contient 10 boules dont 3 sont blanches ct 7 
sont noires. On extrait de l’urne une boule qui s'avère blanche. Après cela on 
remet cette boule dans l’urne ct on mélange soigneusement les boules. Trouver 
la probabilité qu'au cours d'un second tirage on aura une boule blanche. 

Dans le cas présent nous avons une condition bien déterminée; la mani- 
festation de l’événement À correspond au fait que la première boule extraite est 
blanche. C'est pourquoi on peut parler de la probabilité conditionnelle de 
l'événement B correspondant au fait que la seconde boule extraite est blanche. 
Toutefois le nombre de cas possibles reste égal à 10, et le nombre de cas favo- 
risint l'événement B reste égal à 3. Pur conséquent, dans ce cas nous avon 


P(B|A)=— P (B) = 3/10. 
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$ 4. Opérations effectuées sur les événements 


4.1. Union de deux événements. On appelle union ou somme 
de deux événements À et B, l'événement complexe correspondant 
à l'apparition de l’un au moins des événements À et B. L'union 


Fig. 4 Fig. 5 


des deux événements À et B est notée À |[J B. Pour deux événements 
incompatibles À et B on utilise également la notation À + B. 
Sur la fig. 4, illustrant cette définition, on a montré l'union 
de deux événements À et B pour le cas où l'événement À repré- 
sente l'appartenance d’un point aléa- 
AUB toire au domaine À, et l'événement B 
l'appartenance au domaine B. Dans 
ce cas l'événement À |] Z? représente 
l'appartenance du point au domaine 
dont les limites sont tracées par un 
trait gras. Sur la fig. 4 on a montré 
le cas où les domaines À et B ont une 
partie commune (se coupent), autre- 
ment dit où les événements À et B 
Fig. 6 sont compatibles. Sur les figures 5 et 
6 on a montré respectivement les cas 
où les domaines À et B ne se coupent pas, c'est-à-dire où les 
événements À et Z sont incompatibles. 

4.2. Intersection de deux événements. On appelle intersection 
ou produit de deux événements À et B leur réalisation conjointe. 
L'intersection des événements À et B est notée À NN] B ou succincte- 
ment AB. 

Sur la fig. 4 on a illustré l'intersection des événements À et B 
dans le cas où l’événement À représente l'appartenance au domaine 
A ct l'événement B l'appartenance au domaine B. L'’intersection 
AB des événements À et B correspond à l'appartenance à la partie 
commune doublement hachurée des domaines À et B. 
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Les définitions que nous avons données de l'union et de l’inter- 
section des événements peuvent être aisément étendues à un nombre 
quelconque d'événements. 

4.3. Union et intersection d’un nombre quelconque d’événements. 
On appelle union ou somme de l’ensemble des événements 4,, SES, 


et l’on note Ù Açou > À,(pourles événements incompatibles), 
s€ :€S 
la réalisation de l’un au moins des événements 4,, s€S. 

On appelle intersection ou produit de l’ensemble des événements 

A, SES, et l’on note N À,, la réalisation conjointe de tous 
«ES 
ces événements. 

Dans ces définitions l’ensemble S des valeurs de l'indice s peut 
être fini, dénombrable ou non dénombrable. 

Par exemple, si l'événement À, correspond à l'appartenance 
d'un point aléatoire à l'intervalle (s, s + 1) de l’axe numérique 
et S représente l’ensemble fini {0, 1/2, 1, 3/2, 2}, alors U. À, 

s€ 


représente l'appartenance à l’union finie des intervalles 
(0, 1) U (1/2, 3/2) U (1, 2) U (8/2, 5/2) U (2, 3), 


c'est-à-dire à l'intervalle (0, 3). Si S est l’ensemble dénombrable 
{2-r}, on, alors U À, représente l'appartenance à l'union dé- 
ses 00 
nombrable des intervalles |J (2-P, 2-P + 1), c’est-à-dire à l’inter- 
p=0 : 
valle (0, 2). Enfin, si S est l'intervalle (0, 1/2), alors OU À, 
sES 
représente l'appartenance à l’union non dénombrable des intervalles 
(s, s + 1) pour tous les s € (0, 1/2), c’est-à-dire à l'intervalle (0, 3/2). 
4.4. Propriétés des unions et des intersections. Les opérations 
d'union et d’intersection des événements possèdent des propriétes 
analogues à celles de l’addition et de la multiplication des nombres. 
Par exemple, l'union et l'intersection des événements sont commuta- 
Lives : 


A UJB=B1)A, AB = BA. 

L'union et l'intersection des événements sont associatives : 

(A UB) UC = A U(B UC) = (A UC) UB=A UB UC, 

(4B) C = À (BC, = (AC) B = ABC. 
Enfin, l'union et l'intersection des événements sont distributives : 
(4 UB)C = AC LU BC. 

Toutes ces propriétés découlent directement des définitions res- 

pectives des opérations d'union et d'intersection des événements. 


Ainsi (À {J B) C représente la réalisation conjointe de l'événement C 
avec l’événement À, ou avec l'événement B, ou avec la réalisation 
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conjointe de À et B. L'événement AC |) BC correspond également 
à la réalisation ou bien de C avec À, ou bien de C avec B, ou bien 
de C avec AB. 

Toutefois les lois régissant les opérations d'addition et de multi- 
plication des nombres ne sont pas toutes valables pour l'union et 
l'intersection des événements. Par exemple, les événements À | À 
et AA coïncident évidemment avec À. Par conséquent, À |) À 
— AA = À pour tout événement À. 

4.5. Evénements contraires. Il est nécessaire, pour poursuivre 
l'étude des opérations effectuées sur les événements, d'introduire 
encore la notion d'événements contraires. 

On appelle événement contraire de l’événement À, ct l’on note À, 
la non-réalisation de l'événement À. 

On voit aisément que l’événement À est contraire de l’événe- 
ment À: 


À = À. 

En qualité d'exemples d'événements contraires on peut citer 
les événements « cible touchée » et « cible ratée » lors d’un tir, la 
panne d'un dispositif au cours d’un intervalle donné de temps et 
son bon fonctionnement au cours de ce même intervalle de temps. 

11 est évident que les événements contraires sont incompatibles 
cet que leur union représente un événement certain: 


AA=@, AUA =. 
Il est clair également que 


AUS=A, AS=@, AUR=Q, AQ=A. 


4.6. Propriétés des opérations effectuées sur les événements. On 
voit aisément que pour deux événements quelconques À et B l’évé- 


nement À |} B est contraire à l'événement AB: 
AU B = AB. 


En effet À LU Best la réalisation de l’un au moins des événements 


À, B, ce qui est équivalent à la non-réalisation de AB, en général, 
pour n'importe quel ensemble des événements 4,, s€ S, on a 


Ù A, = N 4e. 
sES s€S 


L'événement AB représente la réalisation conjointe de À et 
B, c'est-à-dire le contraire de ;la ‘réalisation de l’un au moins 
des événements À ou 2: 


AB= AUB 
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En général, pour tout ensemble' d'événements À4,, SES, on a 


N À, = U À. 
ses sES 


Les quatre dernières formules expriment le principe de 
dualité: les opérations d'union et d'intersection sont interchangées 
quand on passe aux événements contraires. 

I1 résulte des propriétés des opérations d’intersection et d'union 
que pour tout couple d'événements À et B on a les relations: 


A = AQ = 4À (B |J B) = AB | AB. (9) 


Cette formule donne la décomposition de tout événement À en 
deux événements incompatibles. 

Si l’événement À a toujours lieu quand un autre événement B 
est réalisé, on dit que l’événement B représente une partie ou un 
sous-événement de l'événement À et l’on note BC À ou 4 > B. 

Si les événements À et B ne peuvent être réalisés ou non réalisés 
que conjointement, c’est-à-dire si B € À et AC B, alors ils sont 
appelés équivalents, ce que l'on note par l'égalité À = B. 

Si B€ À, alors AB = B et la formule (9) s'écrit 


A = B |) AB. (10) 


4.7. Evénements élémentaires. Le lecteur familier avec les élé- 
ments de la théorie des ensembles remarquera aisément que les 
opérations effectuées sur les événements sont identiques aux opé- 
rations effectuées sur les ensembles. Cette analogie entre les évé- 
nements et les ensembles s'explique par le fait que chaque événe- 
ment est lié à un ensemble déterminé d’issues de l'épreuve, de telle 
sorte qu il se produit immanquablement quand se manifeste l’une 
des issues appartenant à cet ensemble, et n'est pas réalisé quand 
se manifeste l’une des issues n’appartenant pas à cet ensemble. 
Par exemple, dans le schéma des cas étudiés au point 3.2 l’événe- 
ment représente l'union de tous les cas qui lui sont favorables. Dans 
le schéma des probabilités géométriques du point 3.3 l’issue de cha- 
que épreuve est l’appartenance à un point déterminé, et chaque 
événement représente l’appartenance à un ensemble déterminé de 
points. 

Pour que ces raisonnements reposent sur une base mathématique 
rigoureuse, on introduit la notion d'événement élémentaire. 

On appelle événement élémentaire un événement qui ne contient 
aucun sous-événement autre que l'événement impossible et lui-même. 
En d’autres termes, l'événement élémentaire représente un événe- 
ment qui n’est pas divisible en événements incompatibles, dont aucun 
d’entre eux n’est un événement impossible. 


3—0244 
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$ 5. Les axiomes de la théorie des probabilités 


5.1. L’espace des événements élémentaires. Nous sommes parvenus 
à la notion de probabilité en partant de la notion de fréquence d’un 
événement. C'est pourquoi il est naturel de penser que les proba-. 
bilités doivent posséder toutes les propriétés des fréquences confor- 
mément à leur définition. Pour les probabilités, ces propriétés ne 
peuvent être démontrées *) dans le cas général. C’est pourquoi les 
principales propriétés des probabilités doivent être adoptées en 
qualité d’axiomes. 

Les raisonnements exposés aux $$ 2 et 4 nous conduisent au 
modèle suivant de phénomènes aléatoires. On associe à une épreuve 
donnée un certain ensemble d'événements élémentaires de telle 
sorte qu’à la suite de cette épreuve l’un et l’un seul de ces événements 
élémentaires peut se réaliser. En outre, on associe à l'épreuve donnée 
un certain ensemble d'événements pour lesquels les probabilités 
sont définies. 

L'ensemble de tous les événements élémentaires associés à une 
épreuve donnée est appelé espace des événements élémentaires et 
désigné habituellement par S. Tout événement élémentaire repré- 
sentant un point de l’espace Q est désigné par la lettre w. 

Chaque événement représente un certain ensemble d'événements 
élémentaires. En particulier, chaque événement élémentaire w repré- 
sente un ensemble formé d’un seul élément (singleton). L'événe- 
ment certain représente l’ensemble de tous les événements élémen- 
taires Q. L'événement impossible représente l’ensemble vide G. 

5.2. Le champ des événements. L'ensemble des événements pour 
lesquels sont définies les probabilités est appelé champ des événe- 
ments et désigné par #. 

Pour que le modèle adopté des phénomènes aléatoires puisse 
servir à l'élaboration de la théorie des probabilités, le champ des 
événements ®# doit posséder des propriétés bien définies. 

4) Si la probabilité est définie pour un événement À, il est natu- 
rel d'exiger qu'elle soit également définie pour l'événement contrai- 
re À. Par conséquent, l’ensemble # doit contenir avec chaque 
événement À qui lui appartient l'événement contraire À, autre- 
ment dit si AE Ÿ alors 4 € #. 

2) Si la probabilité est déterminée pour des événements À et B, 
il est naturel d'exiger qu’elle soit aussi déterminée pour leur inter- 
section AB, afin que l’on puisse déterminer les probabilités condi- 
tionnelles. Cela signifie que l’ensemble # doit contenir avec chaque 


*) Pour les probabilités, ces propriétés ne peuvent être démontrées que 
dans le cas particulier d’un nombre fini d’issues incompatibles équiprobables 
de l'épreuve, ce cas étant considéré au point 3.2. 
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couple d'événements À et B leur intersection AB, autrement dit 
si A, BE #, alors AB E€ d. 

Un ensemble d'événements possédant les deux propriétés citées 
est appelé une algèbre des événements. Par conséquent, le champ 
des événements © doit être une algèbre des événements. 

Etudions les principales propriétés du champ des événements, 
qui découlent de sa définition en tant qu'algèbre des événements. 

Supposons que À et B soient deux événements quelconques 
appartenant au champ ®#. Par définition, deux événements contrai- 


res À et B et leur intersection AB appartiennent également au 


champ #. Mais alors l'événement AB, contraire à l'événement AB, 
appartient aussi au champ #. Or, d’après le principe de dualité, 
l'événement contraire de l'intersection AB coïncide avec l’union 
des événements contraires des événements À et B, c’est-à-dire avec 


l'événement À || B, AB = À |] B. Par conséquent, le champ # con- 
tient avec deux événements quelconques À et B leur union À || B. 

Il découle de cette propriété que le champ des événements # 
contient également l'événement certain Q. En effet, pour tout évé- 


nement AE Ÿ on a AE Ÿ. Par conséquent, À [A =QE Ÿ. 

En vertu de l’associativité des opérations d’intersection et d'union 
des événements, le champ des événements # contient toutes Îles 
unions et les intersections finies des événements qui le composent. 

Notons enfin que le champ # contient l'événement impossible 
@ comme événement contraire de l'événement certain Q. 

Les propriétés que nous avons vues du champ des événements sont 
suffisantes pour la majeure partie des applications de la théorie 
des probabilités. Toutefois pour la résolution de certains problèmes 
difficiles que pose la pratique, il est nécessaire d'exiger que le champ 
des événements Ÿ possède encore une autre propriété : il doit contenir 
non seulement les unions finies des événements qui le composent 
mais aussi les unions en quantité dénombrable, autrement dit 


O0 

U, 4€ # si A,EŸ (k—1, 2,...). 

= 

Une algèbre des événements possédant cette propriété est appelée 
o-algèbre ou champ borélien des événements. 

Il est évident qu'une o-algèbre contient également toutes les 
intersections en quantité dénombrable des événements qui la com- 
posent. Cela découle directement du principe de dualité pour le 
cas d’un ensemble dénombrable d'événements. 

Dans les problèmes énoncés au point 3.2 tous les événements 
élémentaires appartiennent au champ des événements #. Dans 
le cas général le champ des événements peut contenir, mais aussi 
ne pas contenir les événements élémentaires. 

KE 
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9.3. Les axiomes. Nous allons maintenant définir les principaux 
axiomes de la théorie des probabilités. 

Axiome 1. À chaque événement À € $ correspond un nombre 
non négatif, la probabilité de cet événement P (A). 

Axiome 2. La probabilité de l'événement certain est égale à 1: 


P (8) = 1. 


Axiome 3 (axiome d'addition des probabilités). La pro- 
babilité de l'union de plusieurs événements incompatibles est égale 
à la somme de leurs probabilités : 


P(Ü A)=È P(49, si A4, @ quand kæh. (11) 


Cet axiome est vrai aussi bien pour un nombre fini d'événements 
A, -.., A», que pour un ensemble dénombrable d'événements 
{An} (quand n = oo) *). 

Pour les problèmes plus simples de la théorie des probabilités, 
auxquels se rapportent en particulier tous les problèmes associés 
à un ensemble fini d'issues équiprobables de l'épreuve, considérés 
au point 3.2, il suffit d'appliquer l’axiome d’addition des probabili- 
tés uniquement pour un nombre fini quelconque d'événements 
41, ..., ÀA,. Toutefois les problèmes de probabilités géométriques, 
considérés au point 3.3, malgré leur apparente simplicité, néces- 
sitent déjà l’application de l’axiome élargi d’addition des probabilités 
valable pour les ensembles dénombrables quelconques d'événements 
(Ar). 

L'élaboration de la théorie des probabilités sur la base des trois 
axiomes que nous avons formulés appartient à A. N. Kolmogorov 
dont les travaux ont posé les fondements de la théorie moderne des 
probabilités en tant que science mathématique rigoureuse [39, 40]. 

5.4. La probabilité en tant que fonction d’ensemble, la mesure. 
Comme chaque événement À € #Ÿ est un ensemble d'événements 
élémentaires, la probabilité P (4) représente une fonction de l’en- 
semble À, définie sur le champ des événements «. 

Les fonctions d'ensemble possédant la propriété (11) pour toutes 
les valeurs finies de nr, sont appelées additives. Les fonctions d’en- 
semble possédant la propriété (11) pour z? — sont appelées dénom- 
brablement additives ou succinctement o-additives ou encore des 


*) Ilest clair que la propriété d'addition des fréquences n'est valable que 
our un nombre fini d'événements 4:, ..., À,, car pour tout nombre fini 
"épreuves seul un nombre fini d'événements incompatibles peut être réalisé. La 
énéralisation de la propriété correspondante des probabilités à un ensemble 
énombrable d'événements est nécessaire pour la conception d'une théorie 

suffisamment générale englobant tous les problèmes que l'on rencontre en 
pratique. 
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mesures. Toute fonction d'ensemble o-additive est additive, mais 
toute fonction d'ensemble additive n'est pas o-additive. 

En vertu des axiomes 1 et 3 la probabilité P (A) représente une 
fonction d'ensemble non négative o-additive, c'est-à-dire une mesure 
non négative. 

5.5. Espace probabilisé. L'espace des événements élémentaires Q 
pourvu d'une algèbre ou d’une o-algèbre des ensembles # et d'une 
probabilité définie sur # (une mesure non négative P (4), À € #) 
est appelé espace probabilisé et noté (Q, Ÿ, P). Ainsi, dans la 
théorie moderne des probabilités le modèle mathématique de tout 
phénomène aléatoire est l’espace probabilisé. 

La correspondance entre les événements d’un certain ensemble 
d'événements et leurs probabilités est appelée habituellement distri- 
bution des probabilités. Ainsi la probabilité P (4) en tant que fonc- 
tion de l’ensemble À € # définit la distribution des probabilités 
sur #. 


Exemple 9. Dans tout problème de définition des probabilités géo- 
métriques l'espace des événements élémentaires Q est l'ensemble de tous les 
points de l’espace correspondant (en particulier, d'une droite ou d'un po 
que est possible d'atteindre. Ainsi dans l'exemple 3 Q est l'intervalle (0, 60 s), 

ans l'exemple 4 c’est la projection de l'avion sur le plan perpendiculaire à la 
trajectoire de l’obus, dans l'exemple 5 c'est le rectangle formé par l'intervalle 
[0, a] de l'axe x et l'intervalle [0, x/2] de l’axe 8. Le champ est alors dans 
ce cas l’ensemble de tous les sous-ensembles À de l'ensemble Q auxquels est 
associée une mesure (longueur, aire, volume). La probabilité P (4) est définie 
par la formule 


P (4) = v(4)/v (Q), 


où v(4) et v (Q) sont les mesures (longueurs, aires, volumes) des ensembles 
(des parties de l’espace) À et respectivement. 


On ne peut définir la distribution des probabilités à l'aide de 
probabilités de tous les événements élémentaires que dans le cas 
d’un ensemble fini ou dénombrable d'événements élémentaires. 
Dans la plupart des problèmes, en particulier, dans les problèmes 
les plus simples de définition des probabilités d'impact dans telle 
ou telle partie de l’espace, l’ensemble des événements élémentaires 
est infini non dénombrable et, en règle générale, aucun d'eux ne 
peut être considéré comme « plus probable » que n'importe quel 
autre. Cela fait que les probabilités de tous les événements éle- 
mentaires sont nulles dans de tels cas et c'est pourquoi elles ne défi- 
nissent dans aucune mesure la distribution des probabilités. C’est 
là précisément la raison pour laquelle, dans le cas général, la distri- 
bution des probabilités est définie par la fonction d'ensemble P (4). 

Le modèle considéré englobe tous les problèmes de la théorie 
moderne des probabilités. Dans chaque problème probabiliste on 
peut déterminer un certain espace probabilisé. Il est vrai que l’espace 
des événements élémentaires s'avère souvent très complexe. Toutefois 
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la structure concrète de l’espace des événements élémentaires n'est 
pas importante pour le développement de la théorie des probabilités 
et de ses applications, de sorte qu’il est possible de ne pas définir 
cet espace sous une forme explicite mais de se limiter uniquement 
à l'hypothèse de son existence. 

La notion d'espace probabilisé permet de mettre à la base de 
l'élaboration de la théorie des probabilités les méthodes de la théorie 
des ensembles, de la théorie de la mesure et de l’analyse fonction- 
nelle. En particulier, toutes les propriétés des probabilités que nous 
allons établir dans ce qui suit et de nombreuses autres qu'on doit 
utiliser pour l'élaboration des parties plus complexes de la théorie 
des probabilités, la théorie des fonctions aléatoires, etc., découlent 
directement des propriétés générales de la mesure. 

5.6. Propriétés des probabilités. Etudions maintenant les pro- 
priétés des probabilités découlant des axiomes que nous avons adoptés. 

Etant donné qu’un événement impossible @ est incompatible 
avec tout autre événement À, AG = @, alors il découle de (11) 
que P (A | SG) = P (4) + P (G). Par ailleurs comme À || G = À 
(l’adjonction d’un événement impossible ne modifie pas l’événe- 
ment À), alors P (A (JG) = P (A). Par conséquent, P (G) = 0, 
c'est-à-dire que La probabilité d’un événement impossible est égale à 0. 

Si BC À, alors en mettant À sous la forme de la décomposi- 
tion (10) en deux événements incompatibles, À = B + AB, nous 
obtenons en vertu de (11) P (4) = P (B) + P (AB), d’où il découle 
que P (B)< P (A). 

Ainsi, sè l'événement B ne peut être réalisé qu'avec l'événement À, 
alors la probabilité de l'événement B ne peut être supérieure à la pro- 
babilité de l'événement À. 

Et comme tout événement À ne peut être réalisé qu'avec l’événe- 
ment certain Q, À — AQ € Q, alors aucun événement ne peut 
avoir une probabilité supérieure à la probabilité de l'événement 
certain, c'est-à-dire à 1. Ainsi, la probabilité de tout événement appar- 
tient à l'intervalle [0, 1]: 


0SP(A)<1. 


En représentant l'union des événements compatibles 4,, ..., 4, 
sous forme d’une union d'événements incompatibles : 


U, À; — À; U AzA: U 434142 U 0e U An4: ere An-1 
nous obtenons en vertu de (11) 
P(U 49=P (4) + P (4241) + P (454142) +. 


.. +P(A,A... Any). (12) 
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Comme 


AAA: AALEA:...…A.4:.:41c4,; 
alors 


P (4:45) & P (42), -.., P (Ari... Ans) KP (4,), 
et nous obtenons 


P(Ù 49 £Ÿ P(4). (13) 


Cette inégalité, appelée propriété de semi-additivité de la probabilité, 
est valable pour tout ensemble fini ou dénombrable d'événements 
{A,} (autrement dit, aussi bien pour n fini que pour n — oc). 

Il est intéressant de calculer la probabilité de l'union des évé- 
nements compatibles. En appliquant la formule (12) pour deux 
événements À, = À et À, = B, nous obtenons: 


P (A UYB) = P (À) + P (BÀ). 
Par ailleurs en vertu de (9) B — BA |J BA et on a par conséquent : 
P (B) = P (AB) + P (BÀ). 


En déterminant de cette relation P (BA) et en la substituant dans 
l'égalité précédente, nous obtenons 


P(AUB)=P(A) + P(B) — P (AB). 


Ainsi nous avons démontré le théorème d’addition des probabili- 
tés: la probabilité de l'union de deux événements quelconques est 
égale à la somme de leurs probabilités moins la probabilité de leur 
intersection. 

Nous laissons au lecteur le soin d'établir la formule correspon- 
dante pour la probabilité de l'union d’un nombre quelconque d'évé- 
nements compatibles (par exemple, en appliquant la méthode de 
récurrence). 

5.7. Groupe complet d'événements. L'ensemble des événements 
{Az} (fini ou dénombrable) est appelé groupe complet d'événements 
si l’un d’entre eux au moins est nécessairement réalisé au cours 
de l'épreuve. En d'autres termes, les événements À4,, ..., À,, 
n < oo, forment un groupe complet si leur union est un événement 
certain: (JA, = Q. 

Il découle de l'axiome d’addition des probabilités que si Les 
événements À;,, ..., À, sont incompatibles et forment un groupe 
complet, alors la somme de leurs probabilités est égale à 1: 


2 P(4)=1. (14) 


Deux événements contraires sont incompatibles et forment un 
groupe complet. C'est pourquoi il découle de (14) que la somme des 
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probabilités des événements contraires est égale à 1: 
P(A)+P(A)= 1. (15) 


Cette formule est très importante pour la pratique. Dans de nombreux 
problèmes la probabilité de l'événement qui nous intéresse est dif- 
ficile à calculer, alors que la probabilité de l'événement contraire 
se calcule aisément. En pareil cas la formule (15) donne la probabi- 
lité de l’événement qui nous intéresse. 


$ 6. Probabilités conditionnelles 


6.1. Probabilité conditionnelle. La propriété de multiplication 
des fréquences nous donne un procédé naturel pour définir la proba- 
bilité conditionnelle. 

On appelle probabilité conditionnelle P (4 | B) de l’événement À 
par rapport à l'événement B dans le cas où P (B) Æ 0 le rapport 
de la probabilité de l’intersection des événements À et B à la pro- 
babilité de l'événement B: 

P (AB) 
P (A1B) — PŒ) (16) 

Cette définition de la probabilité conditionnelle permet d'étendre 
de façon évidente le théorème du produit de fréquences au cas des 
probabilités : 


P (AB) = P(A)P(B|A) = P(B)P (A |B). (47) 


Ainsi, La probabilité de la réalisation simultannée de deux événements 
est égale à la probabilité de l'un d'entre eux, multiplié par la probabi- 
lité conditionnelle de l'autre. 

Il découle de la définition (16) que les probabilités condition- 
nelles des différents événements par rapport à un même événement 
B, P (B) = 0, vérifient les axiomes 1, 2 et 3. Par conséquent, toute 
la théorie que nous développerons sera valable également pour les 
probabilités conditionnelles. 

Il découle de (17) que la probabilité de la réalisation simultanée 
d'un nombre quelconque d'événements est égale à la probabilité de 
l'un d’entre eux multipliée par la probabilité conditionnelle d'un autre 
événement par rapport au premier, multipliée par la probabilité condi- 
tionnelle d’un troisième événement par rapport à l'intersection des deux 
premiers, etc., multipliée par la probabilité conditionnelle du dernier 
événement par rapport à l'intersection de tous les précédents: 


P (4149 -.. An) = P (41) P (42 | Ai) P (43 | A1 A2) - .. 
. P (An | Ay4o «+ An). (18) 


On démontré aisément ce corollaire à partir de (17) par une méthode 
de récurrence. 
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Exemple 10. Une urne contient 12 boules, dont 5 sont blanches et 
7 sont noires. On extrait de l’urne 2 boules. Trouver la probabilité que les 2 
boules sont blanches. | 
Introduisons les événements: À « la première (ou celle que l'on considérera 
conventionnellement la première si les boules sont extraites simultanément) 
boule est blanche », B « la seconde boule est blanche ». Nous aurons alors 


P(4)= P(B)= 5/12, P(B|IA)=P(A]|B)= 4/11, 


et en vertu de la formule (17) 


Exemple 11. Une urne contient 16 boules, dont 5 sont blanches, 
7 sont noires et 4 sont rouges. Trouver la probabilité, que parmi 4 boules ex- 
traites de l’urne la première sera blanche, la seconde sera noire et les deux autres 
seront rouges. 

Introduisons les événements: A, «la première boule est blanche », 42 
« la seconde boule est noire », A4 « la troisième boule est rouge », 4, «la qua- 
trième boule est rouge ». Nous obtenons alors: 


P(41)= 5/46, P(AalA1) = 7/15, P (431 Aide) = 4/14, 
P (4, | A14243) = 3/13 
et en vertu de la formule (10) nous aurons: 


5 7 4 3 { 
P(A1424544)= 2 2 17 13 10 


Pour vérifier que cette probabilité ne dépend pas de l'ordre dans lequel nous 
prenons les événements, considérons ces événements dans un autre ordre, par 
exemple À 3, A1, A4, A+. Nous obtenons alors 


P(Ail 4s41)=3/14,  P(4 | 454141) = 7/18, 


4 9 3 7 1 
Ps) "45 "4471 10 


Exemple; 12. En théorie de la fiabilité on appelle habituellement 
Jonction de fiabilité ou tout simplement fiabilité p (t) la probabilité du fonction- 
nement sans défaillance d’un dispositif à partir de l'instant t — 0 jusqu'à l'ins- 
tant t. En qualité de caractéristique initiale du dispositif on adopte l'inten- 


sité des pannes 
.._ fp(t+Atlt) 
k= lim EUTAIT 
At—0 At 


qu représente la limite du rapport de la probabilité conditionnelle de la panne 
u dispositif ayant fonctionné sans défaillance jusqu'à l'instant # au cours de 
l'intervalle de temps (t, t + At) à la valeur de cet intervalle At quand At — 0. 
On détermine experimentalement l'intensité des pannes À, au moins pour les 
éléments et les blocs les plus simples. Le problème consiste alors, connaissant 
l'intensité des pannes en fonction du temps À = À (t), à trouver la fonction de 
fiabilité p (t). 

Pour résoudre ce problème, App ons la panne du dispositif au cours de 
l'intervalle de eo (t, t + At) l'événement À, et son fonctionnement sans 
défaillance jusqu’à l'instant t l'événement B. Le fonctionnement sans défaillan- 
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ce du dispositif jusqu'à l'instant t 4 At définira l'événement C. L'événement C 
peut être exprimé à l’aide des événements À et B. Pour que le dispositif fonction- 
ne sans défaillance jusqu’à l'instant t + At, il faut qu’il fonctionne sans défail- 
lance jusqu’à l’instant t et qu’il fonctionne ensuite sans défaillance au cours de 
l'intervalle de temps que entre { et t + At. Par conséquent, l’événement C 
représente l'intersection de deux événements: l'événement B et l'événement 
contraire de l'événement À, autrement dit C égale BA. Il en découle, en vertu 
de (17), que : 

P(C)=P(B)P(4|B). (1) 


Or P (B), la probabilité du fonctionnement sans défaillance du système jusqu’à 
l'instant t, est la fonction de fiabilité inconnue p (t): 


P (B) = p (t). (11) 


La probabilité P (C). c'est-à-dire la probabilité du fonctionnement sans dé- 


faillance du dispositif jusqu’à l'instant £ + At, représente la valeur de cette 
même fonction de fiabilité à l'instant t + At: 


P(C)= p(t + At). (LI) 


Enfin P (A | B) représente la probabilité conditionnelle de la panne du 
dispositif au cours de l'intervalle de temps (t, £ + At), qui peut être exprimée 
en fonction de l'intensité de pannes du dispositif À par la formule 


P(AIB)=P(t+ At|t) = À At + o (At), 
où o (At) signifie, comme toujours, un infiniment petit d’un ordre supérieur à 


At. En appliquant pour le calcul de la probabilité conditionnelle de l’événe- 
ment contraire À la formule (15), nous trouvons 


P (A | B) = 1 — À At + o (At). (LV) 
En substituant ici les expressions (11), (111), (IV) dans (1), nous obtenons 
p(t+ At) = pit) (1 — À At)+ o (At)." 


Il reste maintenant à ouvrir les pis dans le second membre de l'égalité 
©Obtenue, puis à isoler p (t) dans le premier membre, puis à diviser tous les ter- 
mes par At, et à passer à la limite quand Af —+ 0. Nous aurons alors dans le 
premier membre la dérivée p” (t). Nous obtenons en définitive une équation 
différentielle pour la fonction de fiabilite : 


p'(t) = —àp (t). (V) 


Il est naturel d'adopter en qualité de condition initiale la condition sui- 
vant laquelle le dispositif commence à fonctionner à l’état de fonctionnement 
sans défaillance, autrement dit p (0) — 1. L’équation différentielle (V) et la 
condition initiale p (0) — 1 déterminent entièrement la fonction de fiabilité 

L). 
. On peut vérifier aisément par substitution directe que l'intégrale de l’équa- 
tion (V), égale à 1 à l'instant initial, est déterminée par la formule 


t 


p(t)=exp {— | À dr} : (VI) 


0 


6.2. Evénements indépendants et événements dépendants. Deux 
événements sont dits indépendants si la réalisation de l’un d'entre 
eux ne modifie pas la probabilité de l’autre, ou, en d’autres termes, 
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si la réalisation de l’un d’entre eux n'apporte aucune information 
au sujet de l’autre. 

Les événements À et B sont dits dépendants si la réalisation de 
l'un d’entre eux modifie la probabilité de l’autre. 

Pour les événements indépendants À et B nous avons les rela- 
tions 


P(A|B)=P(4), P(B|A)=P (B). (19) 


En effet la probabilité de l'événement À, quand on sait que l’évé- 
nement B est réalisé, est la probabilité conditionnelle de l'événe- 
ment À par rapport à B. Si la réalisation de l’événement B ne modi- 
fie pas la probabilité de l'événement À, cela signifie que la proba- 
bilité conditionnelle de l'événement À par rapport à l'événement B 
coïncide avec la probabilité de l'événement À, qui, à la différence 
de la probabilité conditionnelle, est appelée probabilité incondition- 
nelle ou non conditionnelle. 

Il est évident que pour l'indépendance des événements À et B 
l’une des deux égalités (19) suffit ; la seconde sera alors automatique- 
ment vérifiée en vertu de (17). 

Pour les événements dépendants À et B nous avons les relations 


P(AÏB)ÆP(4), P(BIA)#P (B). (20) 


I] est évident que deux événements incompatibles À et B sont 
toujours dépendants, car la réalisation de l’un d’entre eux implique 
la non-réalisation de l’autre, de sorte que P (4 | B)=P (B | 4) = 0. 

Les événements À,, ..., À, sont appelés indépendants si chacun 
ni ne dépend ni de chacun des autres, ni de leurs intersections pos- 
sibles. 

Remarquons que pour l'indépendance des événements À, . .., An 
leur indépendance deux à deux est nécessaire, mais non suffisante. 


Excmple 413. Supposons que À et B sont deux événements indépen- 


dants arbitraires, dont les probabilités sont égales à 1/2, et C = AB U AB. 
Il est alors évident que nous avons 


P (C) = P (AB) + P (AB) = P (A) P (B) + P (4) P (B) = 1/2, 
P(C|A)=P(B)=— 1/2, P(C|B)= P (4) = 1/2. 


Ainsi À, B et C sont deux à deux indépendants. Toutefois P (C | AB) = Î, car 
si l'événement AB est réalisé, alors C sera aussi réalisé. Par conséquent, les 
événements 4, B et C sont dépendants. Nous proposons au lecteur de calculer 
Jui-même les autres probabilités oiditionneltes de ce problème. 


6.3. Le théorème du produit des probabilités pour les événements 
indépendants. Considérons le cas des événements indépendants 
AS sure. 

D Si les événements 4,, ..., 4, sont indépendants, alors les 
événements À, et A,42 ... An sont indépendants, les événements 
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An-1 êt Ado... Ah sont indépendants et ainsi de suite, les 
événements 4, et 4,4, sont indépendants, et, finalement, les évé- 
nements À, et À, sont indépendants. C'est pourquoi nous avons 


P (4, | Ai4o . .. An) = P (4,), 
P (An-1 | 4140 + An-e) = P (An), 


P (43 | 4142) = P (43), 
P (4: 1 4;) = 2 (42), 
et la formule (18) est de la forme 


P(A;A4:... An) = P(A;)P (42)... P(A,). « (21) 


Ainsi la probabilité de l'intersection des événements indépendants 
est égale au produit de leurs probabilités. 


Exemple 44. La probabilité de toucher la cible lors du lancement 
d'une bombe est égale à p — 0,1. Trouver la probabilité qu’une bombe au 
moins touchera la cible si le bombardement est effectué par dix avions dont 
chacun lance une bombe. 

Convenons que l'événement B représente le fait qu'au moins une bombe 


touchera la cible. L'événement contraire B correspond au fait qu'aucune bombe 
ne touchera la cible. Dans cet exemple les impacts de plusieurs bombes sur la 
cible représentent des événements indépendants, car chaque avion effectue le 
Dombardenent indépendamment des autres. Par conséquent, en vertu de la 
formule (21), la probabilité qu'aucune bombe ne touchera la cible est égale à 


P (B) = (1 — pe. 


Pour déterminer la probabilité inconnue P (B) qu'une bombe au moins 
touchera la cible, il suffit maintenant d'utiliser la formule (15) reliant les pro- 
babilités des événements contraires: 


P (B) = 4 — (4 — p)10 = 4 — 0,910 & 0,63. 


Rs verrons au point 8.4 que le calcul/direct de cette probabilité est très com- 
iqué. 

eE xecmple 15. Une urne contient 12 boules, dont 5 sont blanches et 
7 sont noires. On extrait de l’urne 1 boule, on note sa couleur et on la remet 
dans l'urne. Après cela on mélange soigneusement les boules et on extrait de 
l'urne une deuxième boule. Trouver la probabilité que les deux boules extraites 
seront blanches. 

Dans le cas considéré, étant donné qu'après la première extraction d'une 
boule on la remet dans l’urne, l'information relative à l’apparition d'une boule 
blanche au cours de la première extraction ne modifie pas la probabilité de 
l'apparition d'une boule blanche au cours de l'extraction suivante. C’est pour- 
quoi les événements À (apparition d’une boule blanche la premiére fois) et B 
(apparition d'une boule blanche la seconde fois) sont indépendants et la pro- 
babilité de leur réalisation conjointe est égale au produit des probabilités: 

D 5 25 
P (AB)==P (4) P (B)= DL 
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Exemple 16. Une urne contient 16 boules, dont 5 sont blanches, 
7 sont noires et 4 sont rouges. On extrait de l’urne successivement 4 boules en 
remettant à chaque fois la boule dans l’urne. Trouver la probabilité que la pre- 
mière boule est blanche. la seconde est noire et la troisième et la quatrième 
sont rouges. 

Dans le cas considéré les événements 4, « la couleur blanche de la première 
boule », 42 « la couleur noire de la seconde boule », 4, « la couleur rouge de la 
troisième boule », À, « la couleur rouge de la quatrième boule » sont indépen- 
dants, de sorte que l'on a la relation Vv 


5 7 4 35 
P (41454344 => ee + —— € he. 42 — 129%: 


me Le, Le lo ‘ 
$ 7. Les probabilités des événements compl 


7.1. La formule de la probabilité totale. Supposons que l'épreuve 
donnée est associée à un groupe complet d'événements incompatibles 
H,, ..., H, dont les probabilités P (H,) (i — 1, ..., n) sont con- 
nues. Nous nous intéressons à un événement À dont on connaît les 
probabilités conditionnelles P (4 | H;) (i 1, ..., n) par rap- 
port à tous les événements H,, ..., H,. On demande de calculer 
la probabilité de l’événement À. 

> Ce problème se résout très simplement. Comme les événe- 
ments },, ..., H, forment un groupe complet, leur union est 
un événement certain. L'événement À ne peut être réalisé qu'avec 
l’un des événements À,. Ainsi l'événement À est l’union des évé- 
nements AÏ,, ..., AH,. Comme les événements },, ..., H, sont 
par définition incompatibles alors les événements AH,, ..., AH, 
sont aussi incompatibles et nous pouvons appliquer l’axiome d'ad- 
dition : 


P(A)=P a AHD=ŸÈ P(AH)). 


i= 


Nous obtenons alors en utilisant la formule (17) 
P(4)=È P(H) P(AIH). 4 (22) 


Ainsi la probabilité de l'événement A est égale à la somme des 
probabilités des événements H,, ..., H, multipliées par les proba- 
bilités conditionnelles correspondantes de l'événement À. 

La formule (22) est appelée formule des probabilités totales. Elle 
est très largement utilisée en théorie des probabilités et dans ses 
applications. 


Exemple 17. Une organisation utilise des dispositifs de même type 
fournis par trois usines dans les proportions r,: n°: #4 (autrement dit, à chaque 
groupe de n», dispositifs fournis par la première usine correspond le groupe de 
n2 dispositifs fournis par la seconde usine et le groupe de n, dispositifs fournis 
par la troisième usine). Supposons que la marque de l'usine ne figure pas sur 
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les dispositifs et que l'intensité des pannes soit constante et égale à À, pour les 
dispositifs fabriqués par la première usine, à À, pour les dispositifs fabriqués 
par la seconde usine, et à À, pour les dispositifs fabriqués par la troisième usine. 
Trouver la fonction de fiabilité du dispositif. 
Dans ce problème nous sommes en présence de trois événements incompa- 

tibles constituant un groupe complet: 

H1, le dispositif a été fabriqué par la première usine; 

H3», le dispositif a été fabriqué par la seconde usine; 


H3, le dispositif a été fabriqué par la troisième usine. 
Les probabilités de ces événements peuvent être aisément calculées : 


CNE (k = 1, 2; 3). 


Les probabilités conditionnelles de l'événement À qui nous intéresse, le fonc- 
tionnement sans défaillance du dispositif jusqu’à l'instant £. par rapport aux 
événements 1, He, H4 peuvent être aisément déterminées à partir de la for 
mule (VI) de l'exemple 11: 


P(AlHy)=e "Mt, P(A|Ho)=e ht, P(A|Hs)=e "st. 


En utilisant la formule des probabilités totales (22), nous trouvons la probabi- 
lité du fonctionnement sans défaillance du dispositif jusqu'à l'instant t (c'est-à- 
dire la fonction de fiabilité du dispositif que nous recherchons) : 


P (A)=p(t) __metit+ ne matt ne 7} 
Ritnotns : 


Exemple 18. Une cible (par exemple, un avion) peut être détruite par 
le tir des canons antiaériens, quand elle est touchée par 1, 2, 3 ou »# obus. Trou- 
ver la probabilité de la destruction de la cible par un tir de n obus, si l’on con- 
naît les probabilités d'impact de 1, 2, etc., ou de » obus Pin (m — 1, ..., n) 
ct les probabilités conditionnelles de destruction de la cible lors de l'impact de 
1, 2, etc.. n obus G (m) (m = 1, ..., n). 

Dans le cas considéré nous avons n + 1 événements incompatibles formant 
un groupe complet : 


Hi, la cible est touchée par un obus: 
H3:. la cible est touchée par deux obus; 
H,, la cible est touchée par nr obus, 
Hh+1, aucun obus ne touche la cible. 


Les probabilités des événements H;,, ..., H, sont connues: 


P(Hm) = Pmn (mMm=1,...,n). 


La probabilité de l'événement 77,1, peut être trouvée à partir de la formule (14), 
reliant les probabilités des événements incompatibles formant un groupe complet: 


P (Hn+1) = 1— P;, n —P,, n—: .….— Ph, n° 


D'après les conditions du problème, on connaît également les probabilités con 
ditionnelles de l'événement À qui nous intéresse, la destruction de la cible, par 


$ 7] PROBABILITES DES ÉVENEMENTS COMPLEXES 


L% 
=) 


rapport aux événements J/;, ..., H,4 
P(A|Hn)=G(m) (m—=1,...,n). 


La probabilité conditionnelle de l'événement À par rapport à 77,4, est évi- 
demment nulle, car la cible ne peut être détruite quand elle n'est pas touchée 
par un obus P (4 | H,,41)= 0. Par conséquent, la probabilité de la destruction 
de la cible peut être calculée à l'aide de la formule des probabilités totales 


22): 
n+i A 
P(4)= S P(Hm)P(A|Hm= Sd Pm, nG(m). 
m=i 


m=\| 


7.2. La formule de Bayes. Dans les problèmes pratiques nous 
sommes souvent intéressés par le groupe complet des événements 
incompatibles H,,..., H,, dont les probabilités P (H;) (i = 
= 1, ..., n) sont connues. Ces événements ne sont pas observés 
directement, mais on peut observer un événement À lié avec les 
premiers, pour lequel on connaît les probabilités conditionnelles 
P(A]|H;) (i=1,...,n). Supposons que l’on ait réalisé une 
épreuve dont le résultat est la réalisation de l’événement A. En 
utilisant les résultats de cette épreuve, on demande de formuler 
des conclusions relatives aux événements Æ,, ..., H,, c’est-à-dire 
de déterminer comment ont été modifiées les probabilités après 
la réalisation de l'épreuve. En d’autre termes, on doit trouver les 
probabilités conditionnelles des événements H,, ..., H, par rap- 
port à l'événement À. 

> En vertu du théorème du produit des probabilités (17) nous 
avons la relation 


P (AH) = P (4) P (4H, 14) = P (4) P (4 | Hi). 


Jl en découle que 


P (Hn) P(A| Eh 


En substituant ici l'expression de la probabilité de l'événement 
A donnée par la formule des probabilités totales (22), nous obtenons 


P(Hil4)=—CREUIEN 4, ...,n). @ (23) 


2) PH) P (ALH:) 

i=1 
Cette formule est appelée habituellement la formule de Bayes. 
Elle résout le problème que nous avons posé. 

Les probabilités P (H,) (4 = 1, ..., n) des événements H,,... 
..., H, qui nous intéressent sont, avant la réalisation de l’épreuve, 
habituellement appelées probabilités a priori. Les probabilités 
P(H%; |A) (k=1,...,n) de ces mèmes événements après la 
réalisation de l'épreuve sont appelées probabilités a posteriori. 
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Exemple 19. Supposons AE dans les conditions de l'exemple 17, 
le dispositif ait fonctionné sans défaillance au cours d’un temps 7 (événement À). 
Trouver la probabilité a posteriori que le dispositif a été fabriqué par la k-ième 
usine (k = 1, 2, 3). 

En substituant dans la formule de Bayes (23) les probabilités P (H;), 
P (5), P (Ha), P (A | Hi), P (A | Ho), P (A | H3) définies dans l'exemple 17, 
nous trouvons la probabilité a posteriori que le dispositif a été fabriqué par la 
&-ièéme usine: 

-2,T 

nre 


PH 4) =>“, 
CROP re AT ge Pop ne 


$ 8. La répétition des épreuves 


8.1. Le cas des conditions constantes de l’épreuve. Considérons 
une épreuve complexe composée de plusieurs épreuves plus simples 
au cours desquelles un certain événement À peut être ou ne pas être 
réalisé. 

Les épreuves sont appelées indépendantes, si la probabilité de 
l'événement À qui nous intéresse au cours de chaque épreuve ne 
dépend pas des résultats des autres épreuves. Supposons que l'on 
effectue n épreuves indépendantes, pour chacune desquelles la pro- 
babilité de l'événement À est égale à p. On demande de trouver la 
probabilité P,, que l'événement À sera réalisé m fois. 

> Pour que l'événement À au cours de n épreuves soit réalisé m 
fois, il faut et il suffit que soit réalisée l’une des séries d'événements 
B,, ..., B, dont m coïncident avec À, nr — m coïncident avec 


l'événement contraire À. Il est évident que le nombre de ces séries 
d'événements est égal au nombre de combinaisons correspondantes 


CF = n\/[m! (R — mj)!}, O0! = 1. 


En vertu de l'indépendance des épreuves, la probabilité de chacune 
de ces séries est, d'après le théorème du produit des probabilités 
des événements indépendants (21), égale à pq", où q = 1 — p. 
Enfin, en vertu de l’'incompatibilité de toutes les séries possibles, 
la probabilité recherchée P,,, est égale à la somme des probabilités 
de toutes les séries composées de m événements À et n — m évé- 


nements À, autrement dit à la somme de C% composantes égales 
a pan" : 


mm, .71-m ] mn ,n—m 
Pan = CR PTE gr Pa" (m=0,1,...,n). 
(24) 


Considérons maintenant une variable auxiliaire u et remarquons 
que la quantité Pur" = CF p"gt-"mu" représente le terme général 
du développement de la fonction (q + pu)" d'après la formule du 
binôme de Newton. 
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Ainsi la probabilité P,,,, est le coefficient de u”“dans Île dévelop- 
pement de la fonction 


Pn (u) = (g + pu) (25) 
suivant les puissances de u. 

La fonction , (u) est appelée fonction génératrice des probabi- 
litées Pin: 

On peut arriver au résultat que nous avons obtenu également 
par une méthode de récurrence, en remarquant que pour nr = 1 
le problème a une solution évidente P,, = gq, P;,, = p et en 
appliquant la relation connue entre les coefficients binomiaux 


Cr HECTseCTr. (26) 
On peut également, en tenant compte du fait que 
Pi (u) = q + pu, (27) 


établir à partir de (11) et (21) une formule de récurrence pour les 
fonctions génératrices : 


Pn (U) = Pn-1 (u) (q + pu), (28) 


et ensuite obtenir (25). 

Dans ce cas les événements élémentaires sont toutes les séries 
finies {B,, ..., B,}, où chaque B}; représente soit un événement 4, 
soit l'événement contraire À. Le champ des événements Ÿ est 
l'algèbre de toutes les unions possibles de ces événements élémentai- 
res complétés par un événement impossible: La probabilité de 
chaque événement élémentaire est égale à p"qg"-", où m est le nom- 
bre d'événements B, dans la série {B,, . .., B,} coïncidant avec À 
(m = 0, 1, ..., n). La probabilité de tout événement est détermi- 
née comme la somme des probabilités des événements élémentaires 
qui le composent. 

La correspondance entre les nombres m = 0, 1, ..., n et les 
probabilités P,,,, définie par la formule (24), est appelée distribu- 
tion binomiale. 

8.2. Le cas des conditions variables de l’épreuve. Les formules (24) 
et (25) sont aisément généralisées au cas où la probabilité de l’évé- 
nement À prend différentes valeurs au cours de différentes épreuves 
(la répétition des épreuves dans des conditions variables). Si les 
épreuves sont indépendantes et si la probabilité de l'événement À 
au cours de la k-ième épreuve est égale à p4, gx = 1 — pr (k = 


= 1, ..., n), alors, au lieu de (24), on obtiendra exactement de la 
même façon la formule 


S 


Prin=> Pi... PL, (m=0, 1,...,n), (29) 
4—0244 
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où la sommation est étendue à toutes les partitions possibles des 
nombres 1, 2, ..., rn en deux groupes dont l’un contient m nom- 
bres (ii, os + - <; im) et l'autre r — m nombres (im,y; + - +, én). 
Le nombre de ces partitions est égal à C7. 

On comprend aisément que dans ce cas la probabilité P,,, 
est le coefficient de u”* dans la décomposition suivant les puissances 
de u de la fonction génératrice 


n 
Pn (u)= Î] (gx+ pau). (80) 
On peut également parvenir à ce résultat par une méthode récurrente 
ou en obtenant la formule de récurrence : 


Pn (4) = Pn_1 (u) (Qn + Pnü). (31) 


8.3. La probabilité de réalisation d’un événement au moins un 
nombre donné de fois. Dans de nombreux problèmes pratiques on 
doit déterminer la probabilité que l'événement À sera réalisé au 
cours de x épreuves un nombre de fois au moins égal à k. 

> Il est évident que l'événement complexe, correspondant à la 
réalisation de l’événement À au moins k fois, représente l’union de 
n — k + 1 événements incompatibles: la réalisation de À exacte- 
ment k fois, la réalisation de À exactement Æ + 1 fois, etc., la réali- 
sation de À exactement n fois. Par conséquent, la probabilité cherchée 
Ryn qu’au cours de nr épreuves l'événement À sera réalisé au moins 
k fois est égale à 

1 


Run = Print Patins +Pans à Pine (32) 


Cette probabilité peut être également calculée en déterminant 
tout d’abord la probabilité de l'événement contraire, c'est-à-dire 
la probabilité que l'événement À sera réalisé un nombre de fois 
inférieur à *, et en la retranchant ensuite de l'unité: 

Rh—1 

Ri,n=1— Ps, Pan Prun st 2 Pate <« (33) 

11 est clair qu'il est toujours plus rationnel d'utiliser celle des 
formules (32), (33) qui contient le plus petit nombre de termes. 
I1 est évident que dans (32) la somme contient # — À + 1 termes 
et dans (33) À termes. Par conséquent, il est rationnel d'utiliser la 
formule (32) si nr — k + 1 < k, c'est-à-dire si k > (nr + 1)/2. Si 
k << (n + 1)/2, c'est-à-dire si 4 << n — k + 1, alors il est rationnel 
d'utiliser la formule (33). 

8.4. La probabilité de réalisation d’au moins un événement. 
On doit le plus souvent calculer la probabilité que l'événement qui 
nous intéressé sera réalisé au moins une fois. Il est évident que dans 
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ce cas pour tout nr > 2 il est rationnel d'utiliser la formule (33), 
car la somme qui y figure ne comporte qu’un seul terme P,,,. Nous obte- 
nons ainsi 


Rin = 1 — Pon = 1 — Gi9s - + + Qn- (34) 
Dans le cas particulier des conditions constantes de l'épreuve 

U ==... = Qn =, et la formule (34) s'écrit 
Rin =1 — 9". (35) 


Les formules (34) et (35) peuvent être aisément établies sans uti. 
liser la formule (33). Pour cela il suffit de calculer la probabilité 
de l'événement contraire, la non-réalisation de l’événement À au 
cours de r épreuves. La probabilité que l'événement À ne sera pas 
réalisé au cours de n épreuves indépendantes est égale au produit 
des probabilités de la non-réalisation de À au cours de la première, 
de la seconde, de la troisième, etc., de la n-ième épreuve, c'est-à-dire 
égale au produit gg: . .. qn. En retranchant cette probabilité de 
l'unité, nous obtenons la formule (34). 

8.5. Le cas des épreuves comportant plusieurs événements. Si 
après la réalisation de chaque épreuve est réalisé l’un des événements 
incompatibles À,, ..., À, formant un groupe complet, et dont les 
probabilités respectives sont pD4, ..., p,, py +... +p, =1, 
alors la probabilité qu’au cours de n épreuves À, soit réalisé m, 
fois, À, — m, fois, etc., À, — m, fois, m4 + ... + m, = n, est 
déterminée par la formule suivante: 

Pi, em TT PE me... Pr. (36) 

> Cette formule peut être aisément obtenue par application 

successive de la formule (24). La probabilité que l'événement 4, 

soit réalisé m, fois au cours de »# épreuves est égale, conformément à 
(24), à | 

Pre a Qt PI (Pet << + pr)mete ete, 

La probabilité conditionnelle de l’événement 4, dans chacune des 
épreuves restantes, sous la condition qu'au cours de ces épreuves À, 
ne sera pas réalisé, est évidemment égale à p2/ (pe + . .. + p,). 
C'est pourquoi la probabilité conditionnelle qu'au cours de m, + ... 
... + m, épreuves, pour lesquelles 4, n’est pas réalisé, l'événement 
À, soit réalisé m, fois est déterminée, conformément à (24), par la 
formule 


____ (met... +mr) | 
Pme, mate + [ma ee MNT X 
Po Ma { Pat... +pPr \Mghooc tm, 
x (ii ) (EE) ° 
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En continuant de la sorte, nous trouvons la probabilité conditionnelle 
que l'événement 4, soit réalisé m, fois au cours de my + ... + m, 
épreuves sous la condition que les événements 4,, ..., A, ne 
soient pas réalisés au cours de ces épreuves : 


(mn+...+ mr)! 


PR nn Len een) L 
x (2) | SR 2) a 
© Uretes.+pr Ph eee Pr 


En faisant le produit des probabilités trouvées, nous obtenons la 
formule (36). < 
La fonction génératrice des probabilités Pm. — (m, + ... 


-... + M, = h) est définie par la formule 


Pn (is. Ur) = (pas +... + prur)", (37) 


de sorte que P,,...,m_ représente le coefficient de us: ... ur 
dans le développement de cette fonction suivant les puissances des 
variables u,, ..., u,. 

Dans ce cas les événements élémentaires sont les suites finies 
{B,, ..., B,}, où chaque BP, représente l’un des événements 4,, ... 
..., An. Le champ des événements est ici l'algèbre de toutes les 
unions possibles de ces événements complétés par l’événement im- 
possible. La probabilité de chaque événement élémentaire est égale 
à pm ... pr, où m, désigne le nombre d'événements B, dans la 
série {B,, ..., B,} coïncidant avec À; (i = 1, ..., r). La proba- 
bilité de tout événement est égale à la somme des probabilités des 
événements élémentaires qui le composent. 

La distribution des probabilités, définie par la formule (36), 
est appelée polynomiale. 


S 9. Distribution de Poisson 


9.1. Les flux d’événements. On rencontre en pratique des événe- 
ments qui se produisent à des instants aléatoires du temps. Des évé- 
nements de ce genre forment une suite d'événements appelée habi- 
tuellement flux d'événements. Des exemples de flux d'événements 
peuvent être fournis par des appels téléphoniques, la traversée d’un 
carrefour par des automobiles, les appels d’une ambulance, les pannes 
d’un système technique, les arrivées des clients dans une organisa- 
tion de services (par exemple, dans un salon de coiffure), etc. 

On peut souvent considérer que le flux d'événements vérifie les 
conditions suivantes: 

1) pour tout couple d'’intervalles disjoints du temps la probabi- 
lité de réalisation d’un nombre donné d'événements durant un 
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intervalle de temps ne dépend pas du nombre d'événements qui se 
sont produits au cours d’un autre intervalle de temps; 

2) la probabilité de réalisation d'un événement au cours d’un 
intervalle de temps infiniment petit (f, & + At) est un infiniment 
petit du même ordre de grandeur que At; 

3) la probabilité de réalisation de plus d’un événement au cours 
de l'intervalle de temps (ft, t + At) est un infiniment petit d'ordre 
supérieur par rapport à At. 

Désignons par Pm (t1, t:) la probabilité de réalisation de m évé: 
nements au cours de l'intervalle de temps (t,, t:). Alors les conditions 
2) et 3) s’écriront sous la forme 


Pat, t+At)=X(t) At+o (At), (38) 
D pat, t+At)=0o(At), (39) 
Rkus2 


où À (t) est une fonction non négative *). 

Pour un flux d'événements vérifiant les conditions 1), 2) et 3) 
recherchons la probabilité qu’au cours de l'intervalle de temps 
(to, t) m événements seront réalisés (m — 0, 1, 2, ...). 

9.2. L’équation de la probabilité de non-réalisation des événe- 
ments. > En considérant l'instant t, fixé, convenons de noter les pro- 
babilités recherchées par ph (t) (m = 0, 1, 2, ...). 

Pour calculer p, (t),' remarquons que p, (t —At) représente la 
probabilité d’intersection de deux événements: aucun événement 
n’est réalisé au cours de l'intervalle de temps (to, t) et aucun événe- 
ment n’est réalisé au cours de l'intervalle de temps ({, t + Af). Con- 
formément à la condition 1), ces événements sont indépendants. 
C'est pourquoi nous avons: 


Po (t + At) = po (t) Po (t, t + At). (40) 
Or en vertu de (38) et (39) nous avons 


Po (t, t+At)=1— 2 Pat, t+At)=1—A(t) At+o(At). (41) 


En portant cette expression dans (40), nous obtenons 
Po (t + At) = po (t) — Po (t) À (t) At + o (At), 
d'où nous tirons 
Po (t+ At) — Po (4) _ 0 (At) 
BH RU — À (8) po (#) + € 
*) Ici o (At) désigne, comme d'habitude, un infiniment petit d'ordre supé- 
rieur par rapport à At. de sorte que 


lim AUS = 
at-0 Àt 


0. 
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Quand At — 0, le second membre de cette égalité tend vers une li- 
mite déterminée — À (t) p, (t). Par conséquent, la limite du premier 
membre existe aussi. Ainsi la probabilité p, (t) est dérivable par 
rapport à {et à la limite, quand At —+ 0, nous obtenons l'équation 
différentielle : 


Po (t) = — À (t) Po ()- (42) 


Pour trouver la valeur initiale de la probabilité p, (t), il suffit 
de poser dans (41) { = t, et de passer à la limite quand Af —+ 0. 
Nous obtenons alors p, (to) = 1. 

9.3. Les équations pour les probabilités de différents 
nombres d'événements. Pour obtenir les équations déterminant les 
probabilités p, (t), Pa (t), . . ., remarquons que m événements peu- 
vent être réalisés au cours de l'intervalle de temps (£,, t + At) con- 
formément à l’un des m + 1 procédés incompatibles: tous les m 
événements sont réalisés au cours de l'intervalle ({f,, t) et aucun évé- 
nement au cours de l'intervalle (t, & + At), m — 1 événements sont 
réalisés au cours de l'intervalle (£,, t) et un événement au cours de 
l'intervalle (t, t + At), etc., tous les nm événements sont réalisés au 
cours de l'intervalle (t, £ + At). C'est pourquoi en vertu de l’axiome 
d’addition des probabilités et du théorème du produit des probabili- 
tés des événements indépendants (21) nous avons 


Pm (t + At) = Pm (t) Po (t, t + At) + Pm-1 () pa (t, t + At) + ... 
++. + Pot) Pm(t, t + Ai). 

Nous en tirons en vertu de (38), (39) et (41): 

Pm ( + At) = pm (t) + [Pm-1 () — Pm (JPA (t) At + o (At). 

Cela donne, par conséquent, 


mt+At)—Dm A 
PE D 3 (4) [pas (6) — Pm (1 + 202. 


En raisonnant exactement de la même façon que lors de l’établisse- 
ment de l’équation (42), nous obtenons l'équation différentielle 
suivante : 


Pm (€) = À (€) [pm-1 () — Pm EN (m=1, 2,...). (43) 
Les valeurs initiales des probabilités p, (t), pa (t), . . . sont toutes 
égales à zéro du fait que l’on a p, (to) = 1, Pm (to) = 0 (m=1,2,...). 
9.4. La résolution des équations. En adoptant en qualité de 
variable indépendante la grandeur 


t 
u = | À (t) dt, (44) 
to 
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nous pouvons mettre les équations (42) et (43) sous la forme suivante 


dp dp = 

= — Por ETS = —Dm+Pm1 (Mm—=1, 2, ...). (49) 
Les conditions initiales seront alors de la forme p, = 1, Pm = 0 
(m = 1,2, ...) quand up = 0. On vérifie aisément par substitution 
directe que les intégrales des équations (45) vérifiant les conditions 
initiales sont définies par la formule suivante 


Pn= eu (m=0, 1, 2, ...). (46) 


Ainsi, pour un intervalle donné du temps (t,, t) nous avons une 
infinité dénombrable d'événements élémentaires : aucun événement 
au cours de cet intervalle, un événement, deux événements, etc., 
et les probabilités de ces événements sont définies par la formule 
(46). Par conséquent, la formule (46) définit une distribution de pro- 
babilités. Cette distribution des probabilités est appelée distribution 
de Poisson. C’est pourquoi le flux des événements vérifiant les con- 
ditions 1), 2) et 3) est appelé flux de Poisson. Le paramètre u de la 
distribution de Poisson représente, comme nous le verrons au point 
3.2.1 (exemple 3.2), le nombre moyen des événements qui sont réali- 
sés au cours de l'intervalle de temps (£,, t). La fonction À (t) est ap- 
pelée intensité du flux poissonien. 


Exemple 20. Trouver la probabilité que le nombre d'électrons s’échap- 
pant de la cathode d'une lampe électronique au cours d'un intervalle de temps 
de durée t est égal à m, si le nombre moyen d'électrons émis en unité de temps 
est égal à À — const. Le flux d'électrons peut être considéré comme poissonien. 

En vertu de (44) nous avons dans ce cas u — Àt. En substituant cette expres- 
sion dans (46), nous obtenons 


Ge e=M 


(ra =0, 1, 2, ...). 


Pm= 


Exemple 21. L'intensité du flux des appels téléphoniques (c'est-à- 
dire la densité moyenne des appels représentant la limite du rapport du nombre 
d'appels au cours d’un intervalle de temps infiniment petit (f, t + At) à At 
quand At —+ 0) est égale à À (t). Trouver la probabilité qu'au cours de l'inter- 
valle de temps (t,, t,.) le central recevra m appels téléphoniques. 

Dans le cas considéré on peut estimer avec une précision suffisante que le 
flux des appels vérifie les conditions pour lesquelles te flux est poissonien. En 
effet. en vertu de l'absence de lien entre les actions des différents abonnés, la 
probabilité d'un nombre donné d'appels au cours d'un intervalle de temps (4, t2) 
ne dépend pratiquement pas du nombre d'appels qui ont eu lieu au cours des 
autres intervalles de temps disjoints avec l'intervalle (4,, te). La probabilité 
de plusicurs appels simultanés peut être pratiquement estimee égale à 0. C'est 
pourquoi on peut considérer que les conditions 2) et 3) sont vérifiées. Dans ce 
cas la probabilité recherchée peut être calculée en utilisant la distribution de 


Poisson, définie par la formule (46) en posant u — { À (t) dt. 
{ 


56 PROBABILITÉS DES ÉVÊÉNEMENTS [CH. 1 


Au lieu de considérer les appels téléphoniques, on peut étudier les appels 
des ambulances, les appels effectués à différentes organisations de services tech- 
niques et de réparation, les instants où les automobiles coupent les carrefours, 
l’arrivée des clients dans une organisation de service, etc. Dans tous ces cas le 
nombre global d'événements pouvant être réalisé au cours d’un intervalle de 
temps suffisamment Jong est pratiquement illimité et pour des intervalles de 
temps relativement petits on peut considérer que les conditions 1), 2), 3) sont 
réalisées, de sorte que l'on peut estimer que le flux est poissonien ; comme tou- 
jours en pratique, il s'agira évidemment d'un flux approximativement poisso- 
nien. Il en est de même pour les phénomènes de décomposition radioactive des 
matières fissiles. Les flux de décomposition des atomes peuvent être aussi con- 
sidérés comme poissoniens. 


9.5. Distribution aléatoire des points dans l’espace. On obtient 
également la loi de Poisson dans le cas où les points sont distribués 
de façon aléatoire non pas sur l’axe numérique, mais dans un plan, 
sur une surface, dans l’espace. Supposons que soient vérifiées les 
conditions suivantes: 

1) pour tous couples de domaines disjoints la probabilité d’appar- 
tenance d'un nombre donné de points à l’un des domaines ne dépend 
pas du fait combien de points appartiennent à l’autre domaine; 

2) la probabilité d'appartenance d’un point à un domaine infi- 
niment petit représente un infiniment petit du même ordre de gran- 
deur que l'aire (le volume) de ce domaine; 

3) la probabilité d'appartenance de plus d’un point à un do- 
maine infiniment petit est un infiniment petit d'ordre supérieur par 
rapport à l'aire (le volume) de ce domaine. 

La probabilité que m points appartiennent au domaine B est dé- 
finie par la formule (46), où 


u — | à (t) dr. (47) 
B 
Tous les raisonnements précédents restent alors en vigueur. Il con- 
vient seulement de considérer les probabilités p,, non pas comme des 
fonctions de t, et t, mais comme des fonctions de u et de remplacer 
dans toutes les formules À (t) At par la quantité Au. 


Exemple 22. Lors de l'explosion d'un obus à action indirecte les 
éclats sont distribués suivant une certaine surface avec une densité À (t). Quand 
le nombre d'éclats est très grand, on peut considérer que la condition 1) est 
vérifiée pour tous les domaines petits par rapport au domaine global recouvert 
par les éclats. On peut considérer que les conditions 2) et 3) sont vérifiées du 
fait de l'impossibilité pratique que deux ou un plus grand nombre d'éclats tom- 
bent au même point. C'est pourquoi pour calculer les probabilités d’apparte- 
nance de divers nombres d’éclats à un domaine donné (habituellement petit 
par rapport au domaine global de diffusion des éclats) on peut utiliser la distri- 
bution de Poisson, en calculant u à partir de la formule (47). 


9.6. Approximation poissonienne de la distribution binomiale. 
Remarquons que les calculs effectués à l’aide de la formule (24) dé- 
finissant la distribution binomiale deviennent très lourds quand 
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est grand. Toutefois pour une valeür petite de p la distribution bino- 
miale pour les grandes valeurs de n est bien approchée par la distri- 
bution poissonienne. En effet, pour de petites probabilités p pour 
tous les u € (0, 1), nous avons 


g—+pu=1+plu—1)z er") = eP.@epr#), 


En portant cette expression dans la formule (25) pour la fonction 
cénératrice, nous obtenons 


Pmn& Ce (m0, 1,2....). (48) 


Cette formule donne l’approximation poissonienne de la distri- 
bution binomiale. Elle est suffisamment précise quand le nombre 
d'épreuves x est grand et quand la probabilité p de réalisation de 
l'événement au cours d’une épreuve est suffisamment petite. 

On obtient de façon analogue la formule approchée (46) quand 
u=p +... + p, pour la probabilité P,, dans le cas des con- 
ditions variables de l’épreuve à grandes valeurs de n et faibles va- 
leurs de pP,, .-., Pn- 

Nous proposons au lecteur de démontrer que la distribution de 
Poisson est la limite de la suite des distributions binomiales quand 
p = u/n (n = 1,2, ...), où u est une constante donnée. 


*) Nous proposons au lecteur de le vérifier lui-même en utilisant la for- 
mule de Maclaurin pour le développement en série de eZ avec un terme restant du 
second ordre dans la formule de Lagrange. 


CHAPITRE 2 


VARIABLES ALÉATOIRES 


$ 1. Définitions générales. Variables aléatoires 
discrètes 


1.1. Définition d’une variable aléatoire. Nous avons donné au 
point 1.2.1 une définition intuitive d'une variable aléatoire, basée 
sur des faits observés expérimentalement, et nous avons montré qu’à 
chaque variable aléatoire on peut associer un ensemble d'événements, 
chacun d’entre eux représentant l'appartenance de la variable aléa- 
toire à différents domaines. Pour étudier les variables aléatoires, 
il faut que pour un certain ensemble d'événements soient définies 
les probabilités, autrement dit que cet ensemble d'événements appar- 
tienne au champ d'événements #Ÿ associé à l'épreuve donnée. De 
plus, il est rationnel d'exiger que cet ensemble d'événements soit 
lui-même un champ d'événements (un sous-champ du champ # ). 
Nous parvenons ainsi à la définition suivante d’une variable aléa- 
toire. 

On appelle variable aléatoire une variable qui, à la suite de la 
réalisation de l'épreuve, prend l'une parmi un ensemble de valeurs 
possibles et avec laquelle on peut associer un certain champ d'’événe- 
ments, son appartenance aux ensembles donnés, contenu dans le 
champ principal d'événements #. 

1.2. Variables aléatoires scalaires et vectorielles. Les variables 
aléatoires peuvent être aussi bien scalaires que vectorielles. Confor- 
mément à la définition générale d’un vecteur, nous appellerons 
variables aléatoires vectorielles ou vecteur aléatoire tout ensemble or- 
donné de variables aléatoires scalaires. Par exemple, le vecteur aléa- 
toire X à n dimensions représente l'ensemble de n variables aléa- 
toires scalaires {X,, ..., X,}. Ces variables X,, ..., X, seront 
appelées les coordonnées du vecteur aléatoire X. 

Les coordonnées du vecteur aléatoire peuvent être dans le cas 
général des variables aléatoires complexes (prenant à la suite de la 
réalisation de l'épreuve des valeurs numériques complexes). Tou- 
tefois on peut toujours se débarrasser des variables complexes en 
remplaçant chaque variable complexe par un couple de variables 
réelles, ses parties réelle et imaginaire. Ainsi un vecteur à nr dimen- 
sions avec ses coordonnées complexes peut toujours être considéré 
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comme un vecteur de dimension 2r avec des coordonnées réelles. 
D'ailleurs cela n'est pas toujours avantageux; dans de nombreux 
cas. il est plus commode de considérer les variables aléatoires com- 
plexes. Dans ce qui suit nous appellerons pour des raisons de con- 
cision le vecteur à coordonnées complexes un vecteur complexe, et 
le vecteur à coordonnées réelles un vecteur réel. 

Il est évident qu'au lieu de considérer un vecteur aléatoire on 
peut considérer un point aléatoire dans l’espace correspondant. Ces 
deux notions sont absolument équivalentes. 

Outre les variables aléatoires scalaires et vectorielles de dimen- 
sion finie, en théorie des probabilités on doit étudier des variables 
aléatoires de nature plus complexe, en particulier les suites infinies 
de variables aléatoires (des vecteurs de dimension infinie) et les 
fonctions aléatoires. Nous n'étudierons ici que les variables aléatoi- 
res de dimension finie. 

1.3. Distribution d’une variable aléatoire. Chaque événement du 
champ Ÿ,€ # associé à une variable aléatoire X représente l’appar- 
tenance de la variable X à un certain ensemble À. Cet événement 
s'écrit sous la forme X € À (X appartient à l'ensemble À). I] découle 
des propriétés du champ des événements que les ensembles À corres- 
pondant à tous les événements {X € 4} € # , forment une algèbre ou 
une G6-algèbre des ensembles .4# dans l’espace des valeurs de la varia- 
ble X. La correspondance entre les ensembles AE ,4 et les probabilités 
d'appartenance de la variable X à ces ensembles représente la dis- 
tribution des probabilités dans l’espace des valeurs de la variable 
aléatoire X. Cette distribution des probabilités est appelée distribu- 
tion (loi de distribution) de la variable aléatoire X. 

Dans ce qui suit nous considérerons uniquement les distributions 
des variables aléatoires réelles (scalaires ou vectorielles). Nous iden- 
tifierons alors toujours les événements de la forme X € À aux ensem- 
bles À correspondants. 

Dans certains cas toutes les valeurs possibles de la variable aléa- 
toire, à l'exclusion, peut-être, d’un certain ensemble de valeurs N 
avant une probabilité nulle (P (NW) = 0), appartiennent à un certain 
sous-espace ou à une autre variété dans l’espace de ses valeurs. Dans 
de tels cas on dit que la distribution de la variable aléatoire est 
entièrement concentrée sur ce sous-espace ou cette variété. 

L'espace des valeurs de la variable aléatoire X muni d'une algèbre 
ou d'une 6-algèbre 4 de ses ensembles et de la probabilité définie sur 
ces ensembles constituent un espace probabilisé appelé espace pro- 
babilisé de la variable aléatoire X. 

1.4. Variable aléatoire discrète. Les exemples étudiés au point 
1.2.1 et aux paragraphes 1.8, 1.9 de variables aléatoires montrent que 
certaines variables aléatoires ne possèdent qu'un nombre fini de 
valeurs possibles, comme par exemple le nombre de réalisations ou 
la fréquence d'un événement au cours de n épreuves. D'autres pos- 
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sèdent une infinité dénombrable de valeurs possibles, comme par 
exemple le nombre d'événements d’un flux poissonien se déroulant au 
cours d'un intervalle de temps donné. Une troisième catégorie de 
variables aléatoires possède une infinité non dénombrable de valeurs 
possibles, comme par exemple le temps de fonctionnement sans 
défaillance d'un dispositif, les erreurs de mesures. les coordonnées 
du point d'impact lors d’un tir. Les variables aléatoires des deux 
premiers types sont, pour de multiples raisons, notablement plus 
simples que les variables du troisième type. C'est pourquoi il est 
rationnel de les isoler dans une classe spéciale. 

On appelle variable aléatoire discrète une variable aléatoire pos- 
sédant un ensemble fini ou dénombrable de valeurs possibles. 

1.5. Distribution d’une variable aléatoire discrète. La distribu- 
tion d’une variable aléatoire discrète est entièrement déterminée 
par les probabilités de toutes ses valeurs possibles. En effet, en adop- 
tant en qualité d'événements élémentaires ses valeurs possibles, nous 
obtenons un ensemble fini ou dénombrable d'événements élémentaires. 
Les probabilités de ces événements élémentaires déterminent entière- 
ment la distribution de la variable aléatoire discrète. Ainsi, si X 
est une variable aléatoire dont les valeurs possibles sont z,, . . ., Tn:, 
alors sa distribution est définie par la formule 


pr, =P(X=zy) (v=1,..., N). 
La somme de toutes ces probabilités est égale à l'unité 


N 

> pv =1, 

v=i 
car les événements X = z,, ..., À — x\ sont incompatibles et 
forment un groupe complet (la variable aléatoire X prend, par suite 
de la réalisation d'une épreuve, une et une seule des valeurs zx;, . .. 

“4 Zn). 

L'espace probabilisé de la variable aléatoire discrète X est 
l'ensemble de ses valeurs {r,, ..., xx} muni de l'algèbre de tous 
les sous-ensembles de ses valeurs et de la probabilité égale pour cha- 
cun de ces sous-ensembles à la somme des probabilités des valeurs 
entrant dans ce sous-ensemble. 

On peut toutefois adopter en qualité d'espace probabilisé de la 
variable aléatoire discrète tout l'espace, dont les points sont ses 
valeurs possibles, muni de la o-algèbre de tous les sous-ensembles de 
cet espace et de la probabilité dont la valeur sur chaque sous-ensem- 
ble est égale à la somme des probabilités des valeurs possibles conte- 
nues dans ce sous-ensemble. 


Æ xemple 4. La distribution du nombre X de réalisations de l'événe- 
ment au cours de n épreuves est déterminée par la formule P (X = m) = 
= Pin (m = 0, 1,..., n), où les probabilités P,,.n sont calculées d’après 
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les formules du paragraphe 1.8. Dans le cas considéré nous avons 
N=n<+1Â, n=0, r—=1,..., 174 = 0, 
Pi = Po,n; Pa = Pins +. Pn+t1 = Pin. 


En particulier, la distribution binomiale est déterminée en vertu de (1.24) 
par la formule P (X = m) = Crpmqn-m (m = 0, 1, ..., n). 

Exemple 2. La distribution de la fréquence Ÿ d’un événement au 
cours de nr épreuves est déterminée par la formule suivante 


P ( = )=Pm. n (m=0, 1,...,n). 


Exemple 3. La distribution de Poisson (en particulier, la distribution 
du nombre X d'événements d’un flux poissonien se déroulant au cours d’un 
intervalle de temps donné) est définie par la formule (1.46): 


m 
P(X=m)= eh (m—0, 1, 2, ...). 


Exemple 4. La distribution du vecteur aléatoire X à r dimensions 
dont les coordonnées sont les nombres X1, ..., X, de réalisations des événe- 
ments incompatibles 41, ..., A, formant un groupe complet, est définie en 
cas de réalisation de n épreuves par la formule (1.36): 


> 

= = EE | | | m 

PON i=m))= Pr. mme ml Pi 1pma . pr, 
mi + ss +m =n. 


Le vecteur X suit dans ce cas la distribution polynomiale entièrement concentrée 
sur le plan à (r — 1) dimensions x, + ... + zx, = n de l’espace à r dimen- 
sions. 


$ 2. Les variables aléatoires continues. La densité 
de probabilité d’une variable aléatoire 


2.1. La densité de probabilité d’une variable aléatoire. Il n'est 
pas possible de définir la distribution d’une variable aléatoire, dont 
l'ensemble des valeurs possibles est une quantité non dénombrable, 
par la définition des probabilités de chacune de ces valeurs. C’est 
pourquoi une autre approche est nécessaire pour ce genre de variables 
aléatoires. 

Au paragraphe 1.2, où nous avions affaire essentiellement avec 
les variables aléatoires dont l’ensemble des valeurs possibles était 
un infini non dénombrable, nous avons vu que la distribution des 
valeurs expérimentales d’une variable aléatoire réelle est commode à 
caractériser à l’aide de leur densité relative, qui représente le rapport 
de la fréquence d'appartenance à un intervalle à la longueur de ce 
même intervalle. Quand le nombre d'épreuves croît indéfiniment 
la fréquence tend à se stabiliser autour de la probabilité. En outre, 
les longueurs des intervalles Az peuvent être arbitrairement dimi- 
nuées quand le nombre d'épreuves augmente indéfiniment. Cela fait 
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que l'histogramme tendra dans ce cas vers une certaine courbe dont 
les ordonnées expriment le rapport de la probabilité à la longueur 
de l'intervalle. Ainsi nous parvenons à la notion de densité de pro- 
babilité d’une variable aléatoire. 

Supposons que le champ des événements #,, associé à la variable 
aléatoire X, comporte l'appartenance à n'importe quel intervalle (rec- 
tangles dans le cas d’un vecteur aléatoire X). 

La densité de probabilité de la variable aléatoire scalaire X est la 
limite du rapport de la probabilité d'appartenance de sa valeur à un 
intervalle infiniment petit 
[x, x + Az) à la longueur de 
cet intervalle Az, quand cet 
intervalle tend vers le point x: 


__ y. PG<X<zr+Ax) 
FOR 
(1) 


La courbe représentant 
la densité de probabilité est 
appelée habituellement courbe 

de distribution. Elle repré- 

Fig. 7 sente  l’analogue théorique 

de l’histogramme. Sur la figure 

7 on a représenté la forme générale de la courbe de distribution. 

Si l’on adopte la convention suivant laquelle les inégalités entre 
vecteurs seront comprises comme la réalisation simultanée des iné- 
galités entre les coordonnées correspondantes de ces vecteurs (par 
exemple, a << b comme a, << by, k = 1, ..., n), Ax au dénomi- 
nateur de la formule (1) sera le produit Az, Ar, ... Azx,, et Ar — 0 
signifiera max (Az,, ..., Ax,) — 0, alors la formule (1) définira la 
densité de probabilité du vecteur aléatoire X à nr dimensions. 

Ainsi la densité de probabilité d'un vecteur aléatoire est la limite 
du rapport de la probabilité de son appartenance à un parallélépi- 
pède infiniment petit [x, x + Ar) au volume de ce parallélépipède 
Ax quand celui-ci tend vers le point x. 

2.2. Variable aléatoire continue. Pour la pratique. sont particulie- 
rement intéressantes les variables aléatoires, pour lesquelles la 
limite dans (1) (finie ou infinie) existe pour tous les x dans l'espace 
correspondant. C’est pourquoi il est intéressant d'isoler une classe 
de variables aléatoires pour lesquelles cette condition est réalisée. 

On appelle variable aléatoire continue une variable aléatoire dont 
la probabilité d'appartenance à n'importe quel domaine infiniment 
petit est infiniment petite et pour laquelle pour chaque x existe une 
limite finie ou infinie de l'expression (1). 

La densité de probabilité f (x) d’une variable aléatoire continue 
X représente une fonction du point dans l’espace des valeurs de la 
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variable X. Le domaine de définition de cette fonction est l’espace 
tout entier des valeurs de la variable X *). C’est pourquoi l’argu- 
ment x représente une variable qui peut prendre également des va- 
leurs ne coïncidant pas avec Îles valeurs possibles de la variable X. 
Ainsi, dans le cas où, par exemple, l’ensemble des valeurs possibles 
de la variable X représente un domaine borné, la variable x peut 
prendre des valeurs n'appartenant pas à ce domaine (bien entendu, 
f (x) = 0 dans tous les points situés en dehors de ce domaine). 
Il découle de la définition que la probabilité d'appartenance d'une 
variable aléatoire continue à un point (ou à n'importe quelle courbe 
quand nr est plus grand que 1, à une surface quand nr est égal à 3, 
à un hyperplan quand nr > 3) de l’espace de ses valeurs est égale à 
zéro. 

Si la densité de probabilité f (x) est continue au point zx, alors 
pour n'importe quelle suite de parallélépipèdes {R,} contenant le 
point x et convergente vers le point r,on a 


RC Rn limAR,= N R,=zx, f(x)=lim SAONE » (2) 
p=i U(Rh) 
où & (R)) est le volume du parallélépipède R, (la longueur de l'in- 
tervalle R, quand nr égale 1, l'aire quand n = 2). 
> Pour démontrer la formule (2) définissons un nombre arbitrai- 
rement petit e >> 0 et choisissons un parallélépipède R,, suffisam- 
ment petit, pour que pour tout point x’ € R,, on ait la relation 


HOABHIOINESE (3) 


Dans ce cas pour tout p > p, l'inégalité (3) sera vérifiée pour tous 
les x” € R;,, étant donné que R,C R,, quand p > p4. 

Supposons que z; soit le sommet du rectangle R, le plus proche 
de l’origine de coordonnées ; on a alors z,< x” pour tous les x’ € R,. 
I découle alors de la relation (3) que pour tous les p > po 


fn) —f@DI< 3. (4) 


D'autre part, il découle de (1) que pour tous les rectangles R, suffi- 
samment petits on a 


| P(XERp) 


D (Ah) — (zh) < 5 Q (2) 


*) 11 suffit en fait que la limite (1) existe pour presque tous les r, c’est-à- 
dire pour tous les x excepté un ensemble de mesure nulle. On die ensemble 
de mesure nulle un cnsrible que l’on peut inclure dans des intervalles (des paral- 
lélépipèdes) de longueur (aire, volume) aussi petite que l’on veut. 
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Il découle alors de (4) et (5) que pour tous les p suffisamment grands 
on a 
P(XER)) 


MER RER = 
v(Rp) f@|<| v(Rp) f (&p) + 


+1f@)—f D I<Z+SS=e. 


La relation (2) est maintenant une conséquence du choix arbitraire 
de e>0. < 

Nous appellerons domaine tout ensemble connexe de points ayant 
un volume déterminé (la longueur quand r = 1, l’aire quand nr = 2). 
On comprend aisément que tout domaine peut être représenté sous 
forme de la réunion d’une quantité dénombrable de rectangles dis- 
joints deux à deux. 

Soit B un domaine arbitraire. Si la densité de probabilité f (x) 
est continue dans le domaine fermé, obtenu en ajoutant au domaine 
B sa frontière, alors 

P (X € B) 


ST) 


< M, (6) 
où m et M sont les bornes inférieure et supérieure de la valeur de la 
densité de probabilité f (x) dans le domaine B: 


m=inff(xz)}, M=supf(2). 
xEB xEB 


> Supposons que {R,} soit une suite de rectangles disjoints deux 
à deux, dont la réunion constitue le domaine B. Supposons que 
P(X EE B)/v (B) > M. Dans ce cas cette inégalité est encore valable 
au moins pour l’un des rectangles constituant le domaine B, disons 
pour le rectangle R,: P(XER;)/v (R:) > M. En effet si P(XE 
€ R})/v (R3) << M pour tous les rectangles R;, alors en vertu de 
l’axiome d’additivité on a 


P(HEB)= > P(XER;) <M 2 v (Rx) = M (B). 
=! = 

Désignons le rectangle R, pour lequel on a P (X € R;)/v (R:) > 
> M par R®. Divisons en deux chaque côté du rectangle AR‘. 
Le rectangle R( se divise alors en 2” rectangles égaux et pour l’un 
d’entre eux au moins, disons pour À; = R(?), la même inégalite 
P(XE R®)/v (RA) > M sera vérifiée. En poursuivant le proces- 
sus de division des rectangles, nous obtenons une suite de rectangles 
{RP} tels, que pour chacun d’entre eux on ait la relation 


P(XE R(P) 
> M (p= 1, 2 Su): (7) 


Soit x, le point appartenant à tous les rectangles R(). Il est évident 
qu'un tel point existe et est unique. Par conséquent, la suite des 
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rectangles {R(”)} converge vers le point x, et en vertu de (2) et (7) 
on a la relation 
P(XE RP!) 


Re > M. 


Î (to) = lim 

P—% 

La contradiction obtenue démontre la deuxième inégalité de (6). 
On démontre la première inégalité de façon analogue. 

Il découle de (6) que la formule (2) est valable également dans 
le cas où {R,} représente une suite arbitraire de domaines conte- 
nant le point x et convergeant vers 
le point x. 

> En effet, en notant m, et 4f, 
respectivement les bornes inférieure 
et supérieure de f (x) dans le domaine 
R,, en appliquant les inégalités (6) 
à chaque domaine R, et en tenant 
compte du fait que les suites {m,} et 
{M} convergent vers f (x) en vertu 
de la continuité de f (x), on vérifie 
la validité de l'affirmation énoncée. € 

2.3. Probabilité d’appartenance à 
un domaine. Déterminons maintenant 
la probabilité qu'une variable aléatoire continue X appartienne 
à un domaine donné À. 

> Supposons tout d’abord que la densité de probabilité f (x) 
de la variable X est continue dans le domaine fermé et fini 4. Choi- 
sissons une suite arbitraire de partitions du domaine À 


Np 
A= Ü AP (p=1, 2, ...} 


On a représenté sur la figure 8 une partition de ce genre pour le vec- 
teur bidimensionnel X (7 = 2). Supposons que d, soit le maximum 
des plus grands diamètres des domaines AP (k = 1, ..., N,): 


d,=max sup |z—z |, limd,=0, 


x: x"€A{P) ñn—00 


où m(P), Af(P) sont les bornes inférieure et supérieure de f(x) dans 
le domaine AfP). On aura alors pour tous les p: 
Np 
P(XEA)= 2; P(XEAF) 
R=1 
et en vertu de (6) 


mp) < P(X € AP?)/v (AP?) < MP. 
50244 
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Par conséquent, pour tous les p on a 
Nh 


N 
p 
2 m{p) v (44) < P(XE À) < 2 ME v (AP). (8) 


On sait de la théorie des intégrales de Riemann que, quand p —+ oo, 
toutes les sommes de (8) convergent vers la même limite, égale à l’in- 
tégrale de la fonction f (x), étendue au domaine 4. Par conséquent, 
la probabilité d'appartenance de la variable aléatoire continue X 
au domaine À est déterminée par la formule 


P(XEA)= | f(x) dx. (9) 
A 


Si la densité de probabilité f (x) est continue par tranches et bornée 
dans le domaine fermé À, alors, en partitionnant À en petits do- 
maines tels que sur chacun d'entre eux f (x) soit continue et en 
appliquant l’axiome d’additivité, on vérifie que la formule (9) est 
vraie également dans le cas d’une densité de probabilité j (x) con- 
tinue par tranches et bornée. 

Si la densité de probabilité f (x) n’est pas bornée dans le domaine 
A ou si le domaine À est illimité, alors, en présentant À comme la 
limite de la suite des domaines bornés tels que dans chacun d'eux 
la fonction f (x) est bornée, comme cela se fait lors de la définition 
des intégrales impropres, on vérifie la validité de la formule (9) 
dans de tels cas également. On note alors que l'intégrale impropre 
dans (9) existe toujours en tant que limite d'une suite d’intégrales non 
négatives inférieures ou égales à 1. 

Ainsi, la probabilité d'appartenance d'une variable aléatoire X à 
un domaine À est égale à l'intégrale de la densité de probabilité de 
cette variable aléatoire étendue au domaine À. 

Dans le cas d’une variable aléatoire X scalaire la formule (9) 
définit la probabilité d'appartenance de la variable aléatoire X à 
l'intervalle À = (x, f): 

p 
P(a<Xx<B)= | f(x) ar. (10) 


œ 


Dans le cas d’un vecteur À à n dimensions l'intégrale dans (9) 
est une intégrale n-uple étendue à toutes les coordonnées du vecteur 
z. Le domaine À est habituellement défini par certaines inégalités 
dont on tire les limites d'intégration pour chacune des variables. 

La quantité f (x) dx, qui en vertu de (1) représente à un infini- 
ment petit d'ordre supérieur près la probabilité d'appartenance de 
la variable X à un domaine infiniment petit de volume dx, est appelée 
élément de probabilité. | 
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L'espace probabilisé de la variable aléatoire continue X est l’es- 
pace de ses valeurs muni de l'algèbre des ensembles pour lesquels 
existe l'intégrale de Riemann figurant dans (9) et de la probabilité 
définie par la formule (9) *). 

Dans ce cas tous les événements élémentaires représentant des 
points de l’espace des valeurs de la variable X appartiennent au 
champ des événements (la probabilité d'appartenance à chacun d'eux 
est, comme nous l’avons vu, égale à zéro). Ainsi la densité de pro- 
babilité d’une variable aléatoire continue détermine entiërement 
sa distribution. 

2.4. Propriétés de la densité de probabilité. Etudions maintenant 
les principales propriétés de la densité de probabilité. 

1. II découle directement de la définition que la densité de 
probabilité ne peut pas être négative, f (x) > 0. 

2. Etant donné que l'inégalité —o0 << X << o est un événe- 
ment certain (aussi bien dans le cas d’une variable scalaire, que 
d'une variable vectorielle X), nous obtenons de (9) la relation 


O0 


| f(x) dx = 1. (11) 


—œ@ 


Dans le cas d’un vecteur X à n dimensions l’intégrale est comprise 
ici au sens d’une intégrale n-uple étendue de —o à œ pour toutes 
les coordonnées z,, . .., zx, du vecteur x. 

Ainsi, la densité de probabilité est non négative et son intégrale éten- 
due à lout l’espace des valeurs de la variable aléatoire est égale à 1. 
Toute fonction possédant ces deux propriétés peut servir de densité 
de probabilité d'une variable aléatoire. 


Exemple 5. La distribution uniforme. C'est la distribution d'une va- 


riable aléatoire continue dont la densité de probabilité est constante sur un 
intervalle (a, b) et est égale à 0 en dehors de cet intervalle: 


7 1 : 
= = st zx€Cl(a, b), 12) 
0 si æé(a, b). 


La distribution uniforme est caractéristique pour la phase des oscillations 
aléatoires. Dans de nombreux problèmes pratiques on doit considérer des oscil- 
lations harmoniques avec une amplitude et une phase aléatoires. En pareil cas 
la phase cest souvent une variable aléatoire uniformément distribuée dans les 
limites de la période des oscillations. 


*) On comprend aisément que l’ensemble de tous les ensembles pour les- 
quels la formule (9) et l’axiome d’additivité déterminent la probabilité forme 
une algèbre mais non une o-algèbre. Pour que la classe des ensembles pour les- 
quels la formule (9) définit la probabilité soit une o-algèbre, il est nécessaire 
que l'intégrale soit considérée comme l'intégrale de Lebesgue. Dans ce cas la 
formule (9) définit la probabilité sur la o-algèbre des ensembles boréliens [42]. 


5% 
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La distribution uniforme est également caractéristique des erreurs des 
mesures grossières. Si la mesure d’une certaine grandeur est effectuée avec la 
précision des divisions entières de l'échelle, sans que l’on détermine visuelle- 
ment des portions de division, alors l'erreur de mesure peut prendre n'importe 
quelle valeur ne dépassant pas en valeur absolue la moitié de la division de 
l'échelle et il n'y a aucune raison de considérer différentes les probabilités de 
différentes valeurs. Plus encore, on peut affirmer avec un niveau de confiance 
élevé que quand le nombre de ces mesures est élevé toutes les valeurs de l'er- 
reur dans les limites comprises entre moins la moitié d'une division jusqu'à 

lus la moitié d'une division de l'échelle se rencontreront avec une fréquence 

gale. C’est pourquoi l’erreur des mesures grossières effectuées avec une préci- 
sion égale aux divisions entières d'une échelle représente une variable aléatoire 
uniformément distribuée dans les limites de —A7/2 à + A/2, où A représente la 
valeur d'une division de l'échelle. . 

On utilise également la distribution uniforme lors du calcul des probabili- 
tés géométriques sur une droite numérique (cf. exemple 1.3). 

Exemple 6. La distribution normale cst définie par la densité de pro- 


babilité _ 
ta=V L exp {—— c(z — ay} , c>0. (13) 


Cette distribution, qui joue un rôle particulier parmi toutes les distributions, 
sera étudiée au paragraphe 3.6. 


Exemple 7. La distribution lognormale est définie par la densité de 
probabilité 


{ (x) = V = exp {—5cûn z — aa) 1(r), c>0, (44) 


où { (r) est la fonction unité de Heaviside égale à 4 quand x > 0 et O quand 
z<0. La variable aléatoire correspondant à cette distribution est non né- 
gative. 

Exemple 8. La distribution gamma (y) est définie par la densité de 
probabilité 


kh+i re . 
AS Re ere egT e 1 (x), UL>œ—1, (1 | 
où L'(z) est la fonction gamma, définie par la formule 
T (2)— | e-tiidt, 2:>0. (16) 
0 


Un cas particulier de la distribution gamma pour = 0 est la distribution 


exponentielle 
f(x) = ke-RX1 (x). (17) 


La distribution exponentielle est largement utilisée dans la théorie de la fiabi- 
lité des dispositifs techniques et dans la théorie des files d'attente. 

Un cas particulier de la distribution y pour tout nombre naturel pu est 
appelé distribution de Erlang. 

Un autre cas particulier de la distribution + pour u = (n/2) — 1, k — 1/2, 
où r est un entier positif, est la distribution du #?, que l’on rencontre fréquem- 
ment dans les problèmes de statistique. 

Pour calculer les valeurs de f (x) et les probabilités d'appartenance aux 
intervalles (— , x) pour différentes valeurs de x dans le cas de la distribution 
+ avec k — 1/2, on dispose dans [94] du programme C.D.T.R. 
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Exemple 9. La distribution B est définie par la densité de probabilité 


F(p+9) x 
= — 21 ({—zx)7- 11 (x) 1 (Â— 7x), : 0. 1 
= UT GE), p,9> (18) 
Pour calculer les valeurs de f (x) et les probabilités d'appartenance aux inter- 
valles G co,z) pour différentes valeurs de x, on dispose du programme 
BDTR {94]. 

L'utilisation des programmes BDTR et CDTR permet d'élaborer des pro- 
grammes servant à calculer les probabilités d'appartenance à tout intervalle 
pour les variables aléatoires suivant une distribution béta ou gamma pour 
n'importe quelles valeurs des paramètres p, q, k, u. 

Exemple 10. La distribution uniforme dans un domaine B de l'espace 
à n dimensions est définie par la densité de probabilité 


jee de Go, (19) 


où {4 (x) est une variable indicatrice du domaine B (c'est-à-dire une fonction 
égale à 1 dans le domaine B et 0 en dehors de ce domaine) et v (B) est le volume 
(la mesure) du domaine B. 

En particulier. la distribution uniforme sur le rectangle |r| <a,|y|<b 
dans le plan est définie par la densité de probabilité 


fee = (12) 1 vb. (20) 


La distribution uniforme à l'intérieur de l’ellipse x?/a° + y?/b? = 1 sur le 
plan est définie par la densité de probabilité 


4 2 2 
f(x, y) = (1-5 +) : (21) 


La distribution uniforme sur le plan et dans l’espace est utilisée pour cal- 
culer les probabilités géométriques (exemples 1.4 et 1.5). 

Exemple 411. La distribution normale dans l'espace à n-dimensions- 
est définie par la densité de probabilité 


= rep e-an)cu-e), C2 


où le vecteur z se présente sous la forme d’un vecteur colonne, l'indice supé- 
rieur « 7 » signifie l'opération de transposition de la matrice, C est une matrice 
symétrique définie positive, et | C | est le déterminant de la matrice C. Au 
paragraphe 4.4 nous étudierons en détail la distribution normale multidimen- 
sionnelle. 


2.5. La variable aléatoire en tant que fonction de l’événement 
élémentaire. Il découle de la définition d’une variable aléatoire que 
lorsqu'un événement élémentaire est réalisé chaque variable aléa- 
toire prend une certaine valeur. Par conséquent, la variable aléatoire 
est une fonction de l'événement élémentaire. 

Ainsi, dans l’exemple 1 le nombre de réalisations X de l’événe- 
ment À représente une fonction de l'événement élémentaire, pre- 
nant la valeur m quand est réalisé un événement élémentaire quel- 
conque © = {B;, ..., B,}, pour lequel un nombre m des événe- 
ments B;,, ..., B,'coïncide’avec À et nr — m coïncide avec À. 
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Dans l’exemple 4 le vecteur aléatoire À représente une fonction 
de l'événement élémentaire prenant la valeur {m,, . .., m,} quand 
est réalisé un événement élémentaire quelconque w — {B,, ..., B,} 
pour lequel un nombre m, des événements B,, ..., B, coïncide, 
avec A4 (k = 1, ...,r) (m, -..,m. = 0,1,...,n; m, + 
... Em =). 

Toute variable aléatoire X représente, si l’on considère les évé- | 


nements élémentaires comme les points de l’espace de ses valeurs, 
une fonction de l’événement élémentaire, qui, lorsque l'événement 
élémentaire w — x est réalisé, prend la même valeur & = x, À = 
= Z (0) = ©. 

La coordonnée X, de tout vecteur aléatoire X = {X,, ..., X,} 
représente une fonction de l'événement élémentaire, qui, lorsque 
l'événement élémentaire © = x = {x,, . .., x,} est réalisé, prend 
la valeur ©, = z,, À} = zp (©) = © (p = 1, ...,n). 

Enfin la variable aléatoire Y — @ (X) représentant une fonction 
déterminée de la variable aléatoire X est une fonction de l’événement 
élémentaire, qui, lorsque l'événement élémentaire w& — zx est réalisé, 
prend la valeur @ (w@) = œ (x), Y = ® (w). 

Cependant toute fonction de l'événement élémentaire n'est pas 
une variable aléatoire. Pour qu'une fonction de l'événement élé- 
mentaire @ (w) soit une variable aléatoire, il faut qu’à chaque en- 
semble À d'un certain champ dans l’espace de ses valeurs soit asso- 
cié un ensemble déterminé d'événements élémentaires appartenant 
au champ #. De telles fonctions sont dites mesurables par rapport 
aux champs correspondants. 

Ainsi toute variable aléatoire représente une fonction mesurable 
de l'événement élémentaire. C'est la définition de la variable aléa- 
toire que l’on adopte lors de l'élaboration de la théorie des probabi- 
lités sur la base de la théorie de la mesure. 


$ 3. Généralisation de la notion de densité de probabilité 


3.1. Densité de probabilité d’une variable aléatoire discrète. 
La limite dans la formule (1) définissant la densité de probabilité 
ne peut exister que dans le cas où la probabilité que la variable 
aléatoire appartienne à un intervalle de longueur infiniment petite 
(à un volume dans le cas d’un espace à nr dimensions) Azx est infini- 
ment petite. Si la probabilité dans (1) représente un infiniment pe- 
tit d'ordre inférieur par rapport à Azx pour toute valeur de x, alors 
on peut considérer que dans (1) la limite est égale à l’infini et adop- 
ter f (x) — oc. Si la probabilité (1) ne tend pas vers O0 quand Ar — 0, 
comme cela est le cas pour une variable aléatoire discrète X, alors 
il est impossible de définir la densité de probabilité au sens d’une 
fonction habituelle. On ne peut dans ce cas définir la densité de pro-. 
babilité qu’à l’aide des fonctions généralisées. 
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Pour cerner la notion de densité de probabilité d'une variable 
aléatoire discrète X prenant les valeurs x;, . .., x, avec les pro- 
babilités p,, . .., px, considérons la relation (1) pour diverses 
valeurs de zx, en supposant qu'aucun des intervalles (x,, Zr+1) 
(k —1,..., N — 1) ne contienne une valeur possible de la va- 
riable aléatoire X. Si le point x ne coïncide pas avec l’un des points 
Zi, - +, Zn, alors pour tout Az suffisamment petit l'intervalle 
[x, x + Ar) ne contient aucune des valeurs de la variable aléatoire 
X et la probabilité d'appartenir à cet intervalle est égale à 0. Par 
conséquent, la densité de probabilité f (x) de la variable aléatoire 
discrète X existe et est égale à 0 pour toutes les valeurs de 2 zx,, ... 
..., Zn. Quand x = z,, la probabilité d'appartenir à l'intervalle 
[r, x + Az) est égale à p, pour toutes les valeurs suffisamment pe- 
tites de Ax. Il en découle alors que la formule (1) conduit à la rela- 
tion f (x) = oo quand x = x,, .... xx. Dans ce cas la probabilité 
d'appartenir à l'intervalle (x, — €, x, -- e) est égale à p, pour toute 
valeur suffisamment petite de & =>0, car cet intervalle contient la 
valeur x, de la variable aléatoire X et ne contient pas d'autres va- 
leurs. Par ailleurs, conformément à la formule (10) la probabilité 
d'appartenance à cet intervalle est égale à l’intégrale de la densité 
de probabilité étendue aux limites de x, — € à xy + e. On a par 
conséquent pour toute valeur suffisamment petite de e>0 


XL TE 


f(Hdr=m (k=1,..., N). (23) 


Xp € 


Ainsi la densité de probabilité d’une variable aléatoire discrète 
est égale à O0 partout sauf aux points z,, . . ., x, où elle fait un saut 
infini, et cela de telle sorte que les aires figurant sous les sauts aux 
points x,, ..., æn sont respectivement égales à p,, ..., p\. On 
peut alors imaginer que la densité de probabilité est la limite d'une 
densité de probabilité égale à O0 partout sauf dans les petits interval- 
les (zx — !, xx + 1) (k = 1, ..., N), où elle est respectivement 
égale à p,/21, ..., p…/2l dans ces intervalles (fig. 9), quand / — 0 *). 
Il est clair que ce passage à la limite ne définit pas la densité de pro- 
babilité comme une fonction de la variable x au sens habituel, car 
aucune fonction ne peut satisfaire la condition (23) pour tout e 0; 
l'intégrale de toute fonction (intégrable) étendue à un intervalle 
infiniment petit est infiniment petite, de sorte qu'elle ne peut rester 
égale à p, pour une valeur arbitrairement petite de e —>0. Néan- 
moins de tels passages à la limite ont un certain sens et s'avèrent 


*“) Il est clair qu'au lieu de considérer des impulsions rectangulaires, 
comme cela est fait sur la figure 9, on peut considérer n'importe quelle autre 
impulsion dont la base est 21 et les aires sont égales respectivement à p1, ..., p\. 
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rationnels pour de nombreuses applications physiques et techniques. 

Ils conduisent à la notion de la fonction impulsion 6 (voir annexe 1). 
En utilisant la fonction 6, on peut définir la densité de probabi- 

lité d’une variable aléatoire discrète À à l’aide de la formule 


N 
f(2)= À pô(z— x). (24) 
v=! 


En effet, en portant l'expression (24) dans (9), nous pouvons con- 
clure que la probabilité d'appartenance d’une variable aléatoire à 
n'importe quel domaine À 
est égale à la somme des 
probabilités des valeurs x, 
qui sont contenues dans le 
domaine À. Par conséquent, 
en définissant la densité de 
probabilité d'une variable 
aléatoire discrète À par la 
formule (24), nous définis- 
sons par cela même entiére- 
ment Ja distribution de 
cette variable aléatoire. 

Fig. 9 3.2. Les variables aléa- 

toires continues discrètes. 

Dans les problèmes pratiques on rencontre également des variables 

aléatoires scalaires différentes des variables aléatoires discrètes et 

. des variables continues pour lesquelles une limite différente de 0 

dans (1) existe pour tous les x, excepté pour un nombre fini ou une 

quantité dénombrable de valeurs x,, ..., zx ayant des probabi- 

lités p,, ..., pn différentes de 0. De telles variables aléatoires 
sont appelées variables continues discrètes. 

La densité de probabilité d’une variable aléatoire scalaire con- 
tinue discrète X est définie par la formule 


*; X X%  Xu7E XH al" 


N 
f@= fit + À p45 (aa) (25) 


où jf, (x) est une fonction non négative représentant la limite de (1) 
POUT TÉL, ..., Zn *). 


*) L'ensemble des valeurs de la variable aléatoire ayant des probabilités 
différentes de zéro est au plus dénombrable. En effet on ne peut avoir pue 
d’une valeur dont la probabilité est supérieure à 1/2, plus de trois valeurs dont 
les probabilités sont comprises dans l'intervalle (1/4, 1/2), et en général plus de 
2P — 1 valeurs dont les probabilités sont comprises dans l'intervalle (2-P, 
2-p+l), Par conséquent, après avoir disposé toutes ces valeurs dans l'ordre dé- 
croissant de leurs probabilités, on peut toutes les numéroter. 
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La formule (11) pour la variable aléatoire continue discrète X 
nous conduit à la relation 


co N 
| hi@)ar+ Dpt. 


© vai 


Toute fonction de la forme (25) vérifiant cette condition et la con- 
dition f, (x) > O0 peut être la densité de probabilité d’une certaine 
variable aléatoire continue discrète. 

3.3. Les vecteurs aléatoires continus discrets. La distribution 
d'un vecteur aléatoire peut avoir une structure beaucoup plus com- 
plexe que la distribution d'une variable aléatoire scalaire. Les pro- 
babilités différentes de O0 peuvent être concentrées non seulement en 
certains points de l’espace à nr dimensions, mais sur certaines courbes, 
surfaces et, quand r >> 3, sur des ensembles de dimensions plus éle- 
vées. Dans les problèmes pratiques on ne rencontre que des vecteurs 
aléatoires en tout point de l’espace des valeurs desquels (excepté, 
peut-être, une quantité finie ou dénombrable d’ensembles avec des 
probabilités concentrées) il existe une limite finie ou infinie de (1). 
Tout vecteur de ce genre possède une densité de probabilité qui peut 
contenir des fonctions ô. Si dans un ensemble à m dimensions 
h (x) = 0, m< n, est concentrée une probabilité p différente de 0, 
alors la densité de probabilité du vecteur aléatoire X contient un 
terme de la forme g (x) Ô (h (x)). Quand on intègre sur z — m coor- 
données quelconques du vecteur x, la fonction Ô disparaît et on ob- 
tient une expression de la forme g (x)| J (x)|”' ou une somme de telles 
expressions, où, conformément à la règle du changement de varia- 
bles dans une intégrale multiple, J (x) est le jacobien des coordonnées 
du vecteur h (x) calculé par rapport aux 7 — m coordonnées corres- 
pondantes du vecteur x, tandis que x appartient à l'ensemble k (x) = 
= 0,zxE€{x': h(zx") = 0}. L'intégrale de cette expression sur les m 
coordonnées restantes du vecteur x est égale à p. 

Ainsi, si dans l'espace des valeurs du vecteur X les probabilités. 
Pis +++ PA Sont concentrées dans les ensembles , (x) = 0, ... 
..., RAn (x) = 0, et si dans les autres points la limite dans (1) existe, 
alors la densité de probabilité du vecteur X est déterminée par la 
formule 

N 


f(2)= hi (@) + po 8n (x) À (Rx (x); (26) 


OÙ f1 (x), 81 (x), - - ., gx (x) sont des fonctions non négatives et cela 
de telle sorte que les g, (x), . .., gn (x) dépendent du choix des 
fonctions correspondantes k, (x), . .., h\ (x). En particulier, l’équa- 
tion du k-ième ensemble peut être parfois écrite en exprimant expli- 
citement certaines des coordonnées x à l’aide des autres. En expri- 
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mant l’ensemble de ces coordonnées par le vecteur x” et l'ensemble des 
coordonnées restantes par le vecteur x’, nous représentons l’équation 
de l’ensemble sous la forme x” = œ, (x’). Cela correspond à la fonc- 
tion ky (x) — x” — 4 (x'). Dans ce cas le point x,, où se trouve con- 
centrée la probabilité p},, peut être considéré comme un ensemble de 
dimension nulle associé à l'équation x = x,. On a alors h, (x) = 
= TZ — z,, et on peut poser gy (x) = £x (zx) = Py- 

Dans le cas particulier d’un vecteur aléatoire discret X pour lequel 
toute la distribution est concentrée aux points z;, ..., xx ona 


f(x) =0, hy (x) = x — x, 
En (2) = Pr (& = 1,..., N) 


et (26) prend la forme (24). Dans l’autre cas particulier d’un vecteur 
<ontinu la limite dans (1) existe pour tous les points de l’espace des 
valeurs possibles, g, (12) = ...Z= £gn(r) =0 et f(x) = f, (x). 
Dans tous les autres cas le vecteur X sera un vecteur aléatoire con- 
tinu discret. 

Comme nous l'avons vu dans l'exemple 4.5, les coordonnées 
d'un vecteur aléatoire continu discret peuvent être des variables 
continues. 

3.4. Les distributions dégénérées. Etudions en détail le cas parti- 
culier de la distribution dégénérée de la variable aléatoire X, qui 
est entierement concentrée dans un seul ensemble à m dimensions, 
m << n, dont l'équation h (x) — O0 peut être résolue explicitement 
par rapport à z — m coordonnées quelconques du vecteur x. En met- 
tant l'équation de cet ensemble sous la forme x” — œq (r'), nous 
obtenons à partir de (26) la formule suivante pour la densité de pro- 
babilité du vecteur X *): 


f @) = gx) 8 (7 — ç (x) (27) 


Ainsi, si la variable aléatoire X” est une fonction déterminée 
d'une autre variable aléatoire X”, X” — œ (X”), alors leur densité 
de probabilité conjointe (la densité de probabilité du vecteur aléa- 
toire composite X — {X", X°}) est déterminée par la formule (27). 
La fonction g (x’) dans (27), comme nous allons voir dans l'exemple 
4.5, est la densité de probabilité de la variable aléatoire X”. 

Dans le cas particulier d'une distribution dégénérée de la varia- 
ble aléatoire X, concentrée dans un sous-espace ou un sous-espace 
décalé défini par l'équation x” — Az’ + c, où À dans le cas général 
est une matrice rectangulaire et c le vecteur de transition, la formule 
(27) devient 

f (x) = g(x') Ô (x — Az’ — oc). (28) 


*) Comme la fonction 6 dans (27) est nulle partout en dehors de l'ensemble 
zx" = q (r’), alors la fonction g (r) = g (r°, x”) peut être remplacée par sa va- 
leur sur cet ensemble: g (x, x”) = g (x°, q (x’)) = g1 (x°). En éliminant l'indi- 
ce de cette nouvelle fonction ainsi déterminée, nous obtenons (27). 
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3.5. Probabilité d’appartenance à un domaine. Les variables 
aléatoires discrètes, continues et continues discrètes épuisent l’en- 
semble de toutes les variables aléatoires que l’on rencontre dans les 
problèmes pratiques. Nous avons montré que pour ces trois types de 
variables aléatoires la distribution est entièrement définie par la 
densité de probabilité. Cela nous permet dans les applications de la 
théorie des probabilités de considérer la densité de probabilité comme 
la caractéristique principale de la distribution de toute variable 
aléatoire de dimension finie. La formule (9) caractérise alors la pro- 
babilité d'appartenance de la variable aléatoire à un domaine quel- 
conque. Toutefois dans le cas général lors de l'intégration dans la 
formule (9), il convient de tenir compte de toutes les parties de la 
frontière du domaine À sur lesquelles est concentrée la probabilité 
différente de O (sur lesquelles les arguments des fonctions 6 figurant 
dans f (x) s’annulent). Ainsi, lors du calcul de la probabilité d’ap- 
partenance à un intervalle [æœ, 6), on doit prendre en considération le 
fait que la probabilité de la valeur & de la variable aléatoire X peut 
être différente de 0. Nous obtenons alors 


B-0 B-E 
P(a<X<B)= | f (@) dx = lim | f(x) az. 
4 æ-re 


a-0 


$ 4. Fonction de répartition 


4.1. La fonction de répartition et son lien avec la densité de proba- 
bilité. On appelle fonction de répartition d'une variable aléatoire 
X la probabilité de l'inégalité X << x, considérée comme une fonc- 
tion du paramètre x: 


F (x) = P(X < x). (29) 


La fonction de répartition existe pour toute variable aléatoire 
de dimension finie. 

La fonction de répartition d'une variable aléatoire continue, 
discrète ou continue discrète peut être exprimée à l’aide de la den- 
sité de probabilité. Pour cela il suffit de calculer la probabilité de 
l'inégalité X << x dans la formule (29) à l’aide de la formule (9) ou 
de la formule (10): 


F(x=P(—o<X<z) | f({u) du, (30) 


+. 


où dans le cas à n dimensions l'intégrale représente une intégrale 
n-uple, telle que l'intégration suivant la variable u; est étendue de 
—oo à x; (i = 1, , A). 

En dérivant la formule (30) par rapport à x dans le cas d’une va- 
riable scalaire X, nous obtenons, en tenant compte du fait que la 
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dérivée d’une intégrale définie par rapport à sa limite supérieure 
est égale à la valeur de la fonction à intégrer correspondant à cette 
limite supérieure, la relation: 


f (æ) = F” (a). (31) 


Ainsi, la densité de probabilité d'une variable aléatoire scalaire est 
une dérivée de la fonction de répartition. 

Dans le cas où X est une variable vectorielle, écrivons Ja formule 
(30) sous forme scalaire 


X! xn 


Fay z)= | _. | (un -.., U)du .. du, 


et dérivons-la une fois par rapport à x,, une fois par rapport à x, 
etc., une fois par rapport à x,. Nous obtenons alors 


ONF (z1. 9 Zn) 
Or] . OTn 


Is sm)—= | (32) 
Ainsi, La densité de probabilité d’une variable aléatoire à n dimensions 
représente la dérivée mixte symétrique d'ordre n de la fonction de ré- 
partition. 

4.2. Propriétés de la fonction de répartition d’une variable aléa- 
toire scalaire. Etudions les propriétés de la fonction de répartition 
d’une variable aléatoire scalaire. 

1. Il découle de la formule (30) que la fonction de répartition est 
une fonction non décroissante de x. 

.. 2. I] découle de (30) et de la propriété (11) de la densité de pro- 
babilité que 
F(—oo)=— lim F(x)—0, F(oo)—limF(x) —1. 
X — — X — 00 


3. Il découle de (30) et de la convention du point 2.1 concernant 
la manière d'interpréter l'intégrale de la densité de probabilité 
que la fonction de répartition est continue à gauche : F (x) = F (x — 0). 

4. La fonction de répartition d'une variable aléatoire discrète 
est croissante par sauts se produisant aux points x;, ..., zn de 
grandeurs respectives P,, - .., Pn- Elle est constante à l’intérieur 
de tout intervalle ne contenant aucune des valeurs x,, . .., Zn, 
de sorte que la probabilité de l'événement X << x n’est pas modifiée 
quand zx varie dans cet intervalle. Ainsi la fonction de répartition 
d’une variable aléatoire discrète est représentée par une courbe en 
escalier (fig. 10). 

9. 11 découle des propriétés d’une intégrale dont la limite supé- 
rieure est variable, que la fonction de répartition d’une variable 
aléatoire continue est continue et dérivable sur tout l’axe numérique. 
Toutefois sa dérivée peut également être une fonction discontinue, 
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Fig. 10 


Fig. 11 


Fig. 12 


2 


comme par exemple cela est le cas pour les distributions uniformes 
ou exponentielles (fig. 11). 
6. La fonction de répartition d'une variable aléatoire continue 


discrète admet des points de discontinuité x,, . .., tn correspon- 
dant respectivement aux sauts p,, . .., pN et représente une fonc- 


tion continue et dérivable en tous les autres points de l’axe numéri- 
que (fig. 12). 

4.3. Probabilité d’appartenance d’une variable aléatoire scalaire 
à un intervalle. La connaissance de la fonction de répartition d’une 
variable aléatoire scalaire nous permet de calculer la probabilité 
d'appartenance de cette variable à tout intervalle semi-fermé la, B). 

> En effet, comme les événements X < & et a X << $ sont 
incompatibles et que leur réunion est l'événement X << $, nous 
pouvons écrire 


P(X<P)=P(X <a) +P(a< X < B), 
d’où il découle en vertu de (29) 
P(a<xX<f)=F(P)—-F(a). « (33) 


Ainsi, la probabilité d'appartenance d'une variable aléatoire à un 
intervalle donné est égale à l'accroissement de sa fonction de répartition 
sur cet intervalle. 

En posant dans (33) B — &œ + e, e > 0, et en faisant tendre € 
vers Ü, nous obtenons 


P(X=a)=F(æa +0) —F (a). (34) 


Ainsi, La probabilité qu'une variable aléatoire prenne une certaine va- 
leur est égale au saut de la fonction de répartition au point correspon- 
dant à cette valeur. 


Exemple 12. Trouver la loi de répartition du laps de temps T de fonc- 
tionnement sans panne d’un système à partir de l’instant où a commencé son 
exploitation si l'intensité des pannes À est constante (cf. ex. 1.11). 

Trouvons tout d’abord la fonction de répartition de cette variable aléatoire, 
c'est-à-dire la probabilité que la variable aléatoire T soit inférieure à t: F (t) — 
— P(T <1t). Mais ceci est la probabilité que le système tombera en panne 
avant l'instant t. La probabilité du fonctionnement sans défaillance du systè- 
me jusqu'à l'instant t, c'est-à-dire P (T > t), représente la fonction de fiabilité 
du système p (t). En présence d’une intensité constante des pannes À = const, 
la fonction de fiabilité est p (t) — e*!. Nous avons par conséquent 


F(HD=P(T<D=1—-P(T>t=1—-pft)=A4—e""t)1 (+. 


Quand t < 0 cette probabilité est égale à 0, car un système en état de marche 
ne peut tomber en panne avant sa mise en exploitation (on suppose évidemment 
que le système cest mis en exploitation en état de marche). Par conséquent, 
F (t) = 0 quand t < 0. En dérivant la formule obtenue, nous trouvons la den- 
sité de probabilité du temps 7 de fonctionnement sans défaillance 


f (4) = he 41 (6. 
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Ainsi, la durée de fonctionnement sans défaillance du système (l'instant de 
la première panne), si l'intensité des pannes À est constante, suit une distribu- 
tion exponentielle caractérisée par un paramètre k = À. 

Exemple 13. Trouvons la loi de distribution de l’intervalle de temps 
T séparant fous événements successifs d'un flux d'événements poissoniens 
d'intensité constante À. Dans ce cas le nombre moyen d'événements se dérou- 
lant au cours d'un intervalle de temps de durée t est égal à  — Àt. La fonction 
de répartition de l'intervalle 7 séparant deux événements successifs du flux 
est évidemment la probabilité qu’au cours d'un intervalle de temps de durée £ 
aura lieu au moins un événement : 


F(tb=P(T<t). 


La probabilité de l’événement contraire, c’est-à-dire la probabilité qu’au cours 
de l'intervalle de temps de durée t aucun événement n'aura licu, est calculée à 
partir de la formule (1.46) pour les valeurs u — Àt, m = 0: 


—À 
Po —e . 


Nous avons par conséquent l'expression 
F(=1—po=1—e"t. 


Mais cela est la même formule que celle obtenue dans l’exemple précédent 
pour la fonction de répartition du temps de fonctionnement sans défaillance du 
système. Ainsi l'intervalle de temps séparant deux événements successifs dans 
un flux poissonnien d'intensité constante est une variable aléatoire dont la 
distribution est exponentielle. : 

Exem P le 14. Un certain système est en exploitation au cours d'un 
temps to. S'il tombe en panne au cours de ce temps, alors il est réparé et de 
nouveau utilisé jusqu'à ce qu’il serve pendant une durée t,. Trouver la loi de 
répartition de la durée S du fonctionnement du système après la première ré- 

aration. 
, Il est évident que la variable aléatoire S est reliée à la durée 7 du fonction- 
nement du système jusqu’à la première panne par les relations 


S = 0 si T > to, S—to —T si T € to. 
Comme $ >> 0, alors si s << Q sa fonction de répartition G (s) est égale à 0. 


Quand s > 0, elle s'exprime à l’aide de la fonction de répartition F (t) du temps 
T de fonctionnement sans défaillance du système par la formule 


G(s) = P(S<s = P(t0—T<s)= P(T > to —s) = 
=1— P(T<to—s) = 1—F (to —Ss). (1) 


En portant ici l’expression de F (t) calculée dans l'exemple 12, nous obtenons 
G(s) = eo) gi 0<s<to,. (11) 


Enfin nous avons la relation G (s) = 1 quand s > to, étant donné que S < 14. 
Il découle de (11) que 


G (+0) = eÂte. 


Ainsi la fonction G (s) présente une discontinuité correspondant à un saut 
eo au point s — 0. Dans tous les autres points de l'axe numérique elle est 


continue. Pour toute valeur s € (0, £,) elle admet une dérivée Le to—5) et pour 
toutes valeurs s << 0 et s > t, sa dérivée cst égale à 0. Par conséquent, S est 
une variable aléatoire continue discrète possédant une seule valeur cxception- 
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nelle. Sa densité de probabilité est définie par la formule 


he-AUo-s) 1 ,-Mos(s) si s€[0, tol, 


s)=G" (s = { | 
GS 0 si s€ [0, tol. 
Excmple 15. La valeur courante du signal d'entrée X d'un élément 
non linéaire est une variable aléatoire continue de fonction de répartition F (x). 
La valeur courante du signal de sortie Y de cet élément est liée à la valeur du 
signal d'entrée X au même instant par la relation 


X si |X|<a, 
Y— a si X > a; 
— si X<—a 


{un élément ainsi caractérisé est appelé limitateur). Trouver la loi de distribu- 
tion du signal de sortie. 

Il est clair que la fonction de répartition G (y) de la variable aléatoire Y 
est égale à O pour tout y < —a (l'inégalité ŸY << y quand y < —a est impossible) 
et est égale à 1 pour tout y > a (l'événement Y << y quand y >> a est un événe- 
ment certain). Quand | y | << a, l'événement Y << y coïncide avec l'événement 
X < y. Nous avons par conséquent la relation G (y) = F (y) quand | y | <a. 
Il est évident que si F (—a) >0, F (a) << 1, alors la fonction de répartition 
G (y) présente une discontinuité avec un saut F (—a) pour y = —a et une dis- 
continuité avec un saut 1 — F (a) pour y = a. Pour toutes les autres valeurs de 
y la fonction G (y) est continue et dérivable. Par conséquent, dans ce cas Y 
est une variable aléatoire continue discrète comportant deux valeurs exception- 
nelles —a et a. Sa densité de probabilité est definie par la formule 


g @) = f (y) + F (—a) 8 (y + a) + [1 — F (a)] 8 (y — a) si lyl<a, 


où f (x) est la densité de probabilité de la variable aléatoire X. En dehors de 
l'intervalle (—a, a) on a la relation g (y) = 0. 

Exemple 16. Soit X une variable aléatoire continue dont la densité 
. de probabilité est f (r). Trouver la loi de probabilité de la longueur de l’inter- 
section de l'intervalle aléatoire (X — !, X + L) avec un intervalle donné (a, b}, 
en supposant que 21 << b — a. Un exemple de ce genre est fourni par le problè- 
me suivant de la théorie du tir. Supposons que les armées de l'adversaire soient 
concentrées sur un secteur de la ligne de front allant du point a au point b. Au 
cours du tir l'obus détruit sur la ligne de front tout ce qui se trouve sur un in- 
tervalle de longueur 21. Dans ces conditions l'obus détruit les armées de l’ad- 
versaire situées sur la partic de l'intervalle (a, b) qui est recouverte par l'in- 
tervalle aléatoire (X — I, X + 1), où X est la coordonnée aléatoire du centre 
de la zone d'impact. Des problèmes de ce genre sur les recouvrements apparais- 
sent souvent dans la théorie du tir. 

La partie recouverte de l'intervalle (a, b) sera, en fonction de la valeur z 
de la variable X, égale soit à 21 (fig. 13, a) soit à 0 (fig. 13, b), soit à toute va- 
leur intermédiaire dans l'intervalle (0, 21) (fig. 13, c) et (13, d): 


U = 0 si X<a—let si X > b + I, 
U=X—a+il gSa—l<X<a+i, 
U=b+I—X sb—l<X<b+lI, 
U = 21 si a+l<X<b—|l. 
Pour que l'inégalité U << u soit vérifiée quand 0 << u < 21, il est nécessaire 


que soit vérifiée l’une des deux inégalités incompatibles X — a + ! << u et 
b + 1 — X << u. C'est pourquoi la fonction de répartition G (u) de la variable 
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aléatoire LC est définie par la formule: 
G(u) = P(U<u)=P(X—-a+l<u) +P(b+I—X<u) = 
= P(X<u+ta—D+P(X>bLI— un). 


Nous obtenons alors en exprimant cette dernière probabilité à l’aide de Ia 
densité de probabilité par la formule (10): 


u+a-! co 
G(u) = | f(x) dr + | f(x) dx, (1) 
00 b+i-u 
b+l-u 
G(u)=1— | { (x) dx. (11) 
u+a-!l 


Comme la partie recouverte de l’intervalle (a, b) ne peut être négative, 
alors G (u) — 0 quand u << 0. Or comme U ne peut dépasser 21, l'événement 


a xX=-L x D x+Ll 
Fig. 13 


U << u est un événement certain pour toute valeur u >> 21, de sorte que G (u) — 
= 1 quand u > 21. Mais il découle alors de la formule (11) que 


b+l 

Jim GW=1— | f (x) dr, 
u—0 + 
b-I 

G(2)=1— | f (x) dr. 
a+l 


Par conséquent, la fonction de répartition G (u) présente des discontinuités 
aux points u — 0 et u — 21 avec des sauts respectivement égaux à 


b+l 
pi=lim G(u)=1— j 16 dz, 
b—l 
Pa=1—6G (2) =1— | f (x) dz. 
a+l 


6—0244 
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Nous voyons ainsi que la partic recouverte de l'intervalle (a, b) représente 
une variable aléatoire U continue discrète dont les réalisations remplissent 
entièrement l'intervalle [0, 27]. De plus, les probabilités des deux réalisations 
vxceptionnelles 0 et 21 sont différentes de 0. 

La densité de probabilité de la partie recouverte de l'intervalle (a, b) est 
définie conformément à (31) par la formule 


g (u) = gi (u) + p1ô (u) + paô (u — 21), (IT) 


où g1 (u) = 0 quand u < 0 ct quand u > 21; dans l'intervalle (0, 21), g, (u) 
est égale à la dérivée de la fonction de répartition G (u) définie par les formu- 
les (1) ou (II). En dérivant la formule (I) d’après la règle de dérivation d'une 
intégrale définie par rapport à ses limites supérieure et inférieure, nous obte- 
nons pour l'intervalle 0 << u << 21 la relation: 


nu) =C(Uw=fu+a—-D+f(b+l1—u). ([V) 


Une question se pose naturellement: existe-t-il des variables 
aléatoires qui n’appartiennent à aucune des trois classes considérées 
de variables aléatoires que l’on rencontre lors de la résolution des 
problèmes pratiques ? Pour se convaincre que de telles variables 
aléatoires existent il suffit de citer un exemple correspondant. 


E xemple 17. Considérons une variable aléatoire X dont la fonction de 
répartition F (x) est définie de la manière suivante. 

Posons F (x) = 0 quand r < 0 et F (x) = 1 quand x > 1. Divisons cnsuite 
l'intervalle (0, 1) en trois parties égales et dans la partie médiane (quand x € 
€ (1/3, 2/31) posons F (rx) = 1/2; chacune des deux parties restantes est de nou- 
veau divisée en trois parties égales et dans les parties médianes on adopte respec- 
tivement les valeurs suivantes F (x) — 1/4 et F (x) = 3/4; chacune des par- 
ties restantes est à son tour divisée en trois parties égales et dans les parties 
médianes F (x) est définie respectivement égale aux valeurs 1/8, 3/8, 5/8,7/8;: 
ce processus de division des parties restantes en trois parties égales cest pour- 
suivi indéfiniment et chaque fois dans la partie médianc F (r) cst définie comme 
la moyenne arithmétique de ses valeurs sur les intervalles continus pour les- 
quels elle a déjà été définie (fig. 14). De cette façon, en vertu de la propriété 
de continuité à gauche de la fonction de répartition F (x) est définie également 
en tous les points de l'intervalle (0, 1) n'appartenant à aucun des intervalles 
pour lesquels elle a été déterminée de la façon que nous avons décrite. Il cst 
clair que la fonction de répartition F (r) que nous avons ainsi construite est 
continue. La longucur totale des intervalles sur chacun desquels cette fonction 
est constante est égale à 1. En effet, un intervalle de constance de F (r) cst de 
longueur 1/3, deux intervalles sont de longueur 1/9, quatre intervalles sont de 
longucur 1/27 et en général pour 2P intervalles de longueur 1/3P*1 Ja fonction 
F (x) prend la même valeur constante. La longucur totale de tous ces interval- 
les de constance de F (x) cest par conséquent égale à 


œ 
1 2 4, 2P A 2\P. 
stotarte tan ss D (S) =1. 
p=0 


Ainsi la longueur totale des intervalles de constance de F (x) coïncide avec 
la longueur de l'intervalle (0, 1) sur lequel elle varie de 0 à 1. Par conséquent, 
l’ensemble de tous les points de croissance de la fonction F (x) a une mesure 
nulle *). Remarquons toutefois, que l'ensemble des points de croissance de la 


*) Voir la note au bas de la page 63. 
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fonction de répartition F (x) est non dénombrable. En effet la fonction F (x) 
est continue, de sorte que sa variation en tout point (non sur un intervalle, 
mais en un seul point) est égale à 0 et si l'ensemble de ses points de croissance 
était dénombrable, alors elle n'aurait pu subir de variations et aurait été cons- 
tante (la somme d'un ensemble dénombrable de 0 est toujours égale à 0, comme 
somme d'une série infinie dont tous les termes sont nuls). | 
Ainsi la fonction F (r) est continue et possède une dérivée égale à O0 en 
tous les points de l'axe numérique, sauf en un ensemble non dénombrable de 


Fig. 14 


ses points de croissance ayant une mesure nulle. En ses points de croissance, [a 
fonction F (r) n’admet pas de dérivée. Il est évident qu'une variable aléatoire 
définie par une telle fonction de répartition n'est ni une variable aléatoire 
discrète, ni continue, ni continue discrète. 

Pour présenter un exemple plus général, désignons la fonction de réparti- 
tion que nous venons de définir par Fo (x). Soit œ (r) une fonction monotone 
croissante définie dans un domaine quelconque de l'axe numérique et prenant 
ses valeurs dans [0, 1], 4 (x) est une fonction monotone croissante représentant 
une application de l'intervalle [0, 1] sur lui-même (c'est-à-dire telle que le 
domaine de définition et le domaine des valeurs soient l'intervalle [0, 4]). II 
est évident qu’une variable aléatoire dont la fonction de répartition est F (r) = 
= 4% (Fo (@ (x))) ne sera également ni une variable aléatoire discrète, ni con- 


tinue, ni continue discrète, quel que soit le choix des fonctions monotones crois- 
santes @ et Ÿ. 


Dans la suite de notre exposé nous ne considérerons que les va- 
riables aléatoires qui ont une densité comportant peut-être une com- 
binaison linéaire de fonctions 6. 

4.4. Probabilité d’appartenance d’un vecteur aléatoire à un rec- 
tangle. Soit X un vecteur aléatoire à z dimensions, F (x) sa fonction 
de répartition. Désignons par A F l'accroissement de la fonctior 
de répartition F (x), quand varie la k-ième coordonnée x, du vecteur 
z dans l'intervalle Z et quand les valeurs x; des autres coordonnées 
restent inchangées, i -£ k. En vertu de l’axiome d'additivité, læ 
es 
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valeur A) F est la probabilité d'appartenance de la variable X au 


rectangle de côté Z sur le k-ième axe et de côtés infinis dans les di- 
rections des deux autres axes. 

En appliquant successivement l'axiome d'additivité, nous par- 
venons à la conclusion que la probabilité d'appartenance du vecteur 
aléatoire X au rectangle R dont les côtés sur les axes zx, ..., Th) 


sont les intervalles Z,, ..., Z, et dont les autres côtés coïncident 
avec les axes de coordonnées correspondantes, se définit par la 
formule : 


P(XER)= A"... APP. (35) 


4.5. Propriétés de la fonction de répartition d’un vecteur aléatoire. 
Etudions les principales propriétés de la fonction de répartition 
d'un vecteur aléatoire. 

1. Il découle de la définition (29) et de la non-négativité de la 
densité de probabilité que La fonction de répartition F (x) du vecteur 
aléatoire X est une fonction non décroissante de chacune des coordonnées 
du vecteur x. 

2. I1 découle de (29) et de la propriété (11) de la densité de pro- 
babilité que F (x) — 0 quand une au moins des coordonnées du vec- 
teur z tend vers —0co et F (x) — 1 quand toutes les coordonnées du 
vecteur x tendent vers oo. 

3. Il découle de (29) et de la convention du point 3.5 relative à 
l'interprétation de l'intégrale de la densité de probabilité que la 
fonction de répartition F (x) est continue à gauche pour chacune des 
coordonnées du vecteur zx. 

4. Il découle de la formule (35) que 


AG... ASPF>0 


pour tous les entiers p< n, tous lesk,, ..., kp,1< k1 <hka <<... 
... <kp<net tous les intervalles I;, . .., F,. 

Toute fonction F (x) possédant ces quatre propriétés (plus exacte- 
ment, les propriétés 2, 3 et 4, puisque 1 représente simplement une 
conséquence de la propriété 4) peut être la fonction de répartition 
d'une variable aléatoire. 

Cela peut être démontré d'une manière absolument élémentaire 
s’il existe une dérivée F' (x) (F' (x) = 0"F (x)/0x, . . . 0x, dans le 
cas d’un vecteur aléatoire X à r dimensions) qui comporterait une 
combinaison linéaire de fonctions ô. Dans ce cas, en vertu de ce 
qui a été démontré aux $$ 2 et 3, il existe une variable aléatoire X 
pour laquelle f (x) = F' (x) sert de densité de probabilité. La fonc- 
tion F(x) est alors pour cette variable aléatoire X sa fonction de 
répartition. 

__ La démonstration, dans le cas général, nécessite le recours à la 
théorie de la mesure et nous ne la rapporterons pas ici. 
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CARACTÉRISTIQUES NUMÉRIQUES 
D’UNE VARIABLE ALÉATOIRE 


$ 1. Espérance mathématique 


1.1. Espérance mathématique d’une variable aléatoire discrète. 
La loi de distribution caractérise entièrement une variable aléatoire. 
Pour définir la loi de distribution d’une variable aléatoire il faut 
définir sa densité de probabilité ou sa fonction de répartition. Tou- 
tefois une telle caractéristique exhaustive d’une variable aléatoire 
est assez complexe. Par ailleurs, pour la résolution de nombreux pro- 
blèmes pratiques il n’est pas nécessaire de connaître intégralement la 
loi de distribution des variables aléatoires, mais il suffit de connaître 
certains nombres qui caractérisent cette loi; c’est ce que l’on ap- 
pelle les caractéristiques numériques des variables aléatoires. Pour 
une caractéristique grossière d’une variable aléatoire scalaire on 
peut, comme nous l’avons fait au $ 1.2, se limiter à sa valeur moyen- 
ne et à une grandeur de la dispersion de ses valeurs possibles. 

Pour appréhender la définition de la valeur moyenne d’une va- 
riable aléatoire à partir de sa loi de distribution, considérons la 
moyenne empirique d'une variable aléatoire discrète X prenant les 
valeurs z;, ..., zn avec les probabilités p,, . .., pA respective- 
ment. Îl est évident que si le nombre d'épreuves n est suffisamment 
élevé, chacune des valeurs z,, . .., z\ peut apparaître plusieurs fois. 
Supposons que la variable aléatoire X ait pris m, fois la valeur x,, m, 


fois la valeur zx,, etc., m, fois la valeur zx, m, + ... + mn = n. 
Dans ce cas la moyenne empirique s'exprime par la formule 
| N N 
= = TR: 
T=— DEL TE DIET +. 
h=1 Rh=1 
Or my/n est la fréquence de la valeur x, (k — 1, ..., N). Par 


conséquent, la moyenne empirique d’une variable aléatoire discrète 
est égale à la somme de ses valeurs possibles multipliées par leurs 
fréquences. 

Quand le nombre d'épreuves r augmente indéfiniment, les fré- 
quences des valeurs z,, ..., zn tendent à se stabiliser autour de 
leurs probabilités. C'est pourquoi, pour définir la valeur moyenne 
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de la variable aléatoire X en tant que caractéristique abstraite de 
la loi de distribution, il suffit de remplacer dans la formule obtenue 
les fréquences m,/n, . .., my/n des valeurs x;, ..., z, par leurs 
probabilités p,, . .., pn. Cela nous conduit à la définition suivante. 

On appelle espérance mathématique ou valeur moyenne d'une va- 
riable aléatoire discrète la somme de toutes ses valeurs multipliées par 
leurs probabilités. 

Nous noterons l'espérance mathématique de la variable aléatoire 
X par le symbole MX ou en abrégé m, *). 

Conformément à cette définition, l'espérance mathématique de 
Ja variable aléatoire X s'exprime par la formule 


N 
mx = MX re Th Pn- (1) 


L’espérance mathématique d’une fonction quelconque œ (X) 
(univoque) d’une variable aléatoire discrète X s'exprime, conformé- 
ment à cette définition, par la formule 


N 
Mq(X) = eo P (zx) Pre (2) 


En effet, dans ce cas la variable aléatoire Y —  (X) est une 
variable aléatoire discrète, dont les valeurs possibles sont œ (x), .. 
.., @ (Zn) et les probabilités de ces valeurs sont respectivement 
égales à p1, - .., pn. Si certaines des valeurs œ (z,) de la fonction 
(x) coïncident, alors la probabilité de cette valeur commune de 
Y = (X) est égale à la somme des probabilités correspondantes 
* px. Ainsi la formule (2) définit l'espérance mathématique de la va- 
riable aléatoire ŸY — œ (X) dans ce cas également. 
1.2. Définition générale de l’espérance mathématique. En utili- 
sant la formule (2.24) pour la densité de probabilité d’une variable 
aléatoire discrète, on peut écrire (2) sous la forme 


Mp(X)= | paf (a dx. (3) 


Il est naturel de prendre cette formule comme base de la définition 
de l'espérance mathématique pour les variables aléatoires des trois 
types que nous rencontrons dans les problèmes pratiques. 

L'espérance mathématique de la fonction @ (X) de la variable aléa- 
toire X caractérisée par une densité de probabilité f (x) est définie 
par l'intégrale (3). 


*) On utilise parfois, particulièrement dans la littérature étrangère, pour 
cpone mathématique de la variable aléatoire X la notation EX provenant 
de l'anglais expected value (valeur espérée). 
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Dans le cas particulier d’une, variable aléatoire continue X et 
d’une fonction (x) continue par tranches, l'intégrale (3) est une 
intégrale de Riemann. 

Il est clair que l'espérance mathématique de la fonction œ (X) 
n'existe que si et seulement si l’on a la relation: 


O0 


| pa) 1 f (a) dx < 00 *). (4) 


—©œ 


Pour obtenir la formule permettant le calcul de l’espérance mathé- 
matique de la fonction  (X) dans le cas d’une variable aléatoire 
continue discrète X, portons dans (3) l'expression (2.25) de sa den- 
sité de probabilité. Nous obtenons ainsi l'expression 


co N 
M(X)= | pr) fi (o) dz+ D o(æ) pa. (5) 


— 00 R= 1 


Si dans un cas particulier le domaine des valeurs possibles de la 
variable aléatoire À n’est pas l’axe numérique tout entier, mais un 
certain intervalle (a, b), alors la densité de probabilité f (x) est nulle 
en dehors de cet intervalle et l'intégration dans (3) est étendue aux 
valeurs de x variant de x = a à x — b. Dans ce cas l'intégrale (4), 
et par conséquent l'espérance mathématique de la variable  (X), 
existe bien entendu. 

Dans le cas particulier où (x) = x la formule (3) définit l’es- 
pérance mathématique de la variable aléatoire X : 


m,= MX = | zf (x) dr. (G) 
Dans le cas où la variable aléatoire X est vectorielle les intégrales 
dans (3) et (6) sont des intégrales multiples étendues à l’espace des 


*) Si l'intégrale (4) diverge, alors l’une au moins des intégrales 


O0 


Jatmitar t À quete, 


où p_ (x) = min {0, p (x)}, p4+ (x) = max {0, æ (x)}, est divergente. Si seule- 


ment l’une d'elles diverge, alors M (X) — — ou M (x) = + . Si les 
deux intégrales divergent, alors 


b 
ETICE 


ne tend pas vers une limite déterminée quand a et b augmentent indéfinimont 
indépendamment l'un de l’autre. 
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valeurs de la variable aléatoire X tout entier. La fonction (x) dans 
(3) peut être scalaire (réelle ou complexe), vectorielle ou matricielle. 
Dans ce cas, selon la convention habituelle, l'intégrale d'une fonc- 
tion vectorielle (matricielle) est comprise comme le vecteur (la ma- 
trice) dont les coordonnées (dont les éléments) sont les intégrales 
des coordonnées correspondantes de la fonction vectorielle (des élé- 
ments de la matrice). 

Sur la base de ce qui vient d’être dit, nous parvenons à la con- 
clusion que l’espérance mathématique m, du vecteur aléatoire X 
de coordonnées X,, ..., X, est le vecteur de coordonnées m, = 
= MX,,...,m, = MX,. 

1.3. Propriétés des espérances mathématiques. Les principales 
propriétés de l'espérance mathématique découlent directement des 
propriétés de l'intégrale. 

1. Si la fonction œ (x) est constante œ (x) = c, alors en vertu de 
la propriété (2.11) de la densité de probabilité nous avons 


Mc= ET dr = c [ dr = ce 


Ainsi l'espérance mathématique d'une variable non aléatoire est égale 
à cette même variable. 
2. Il découle ensuite des propriétés de l’intégrale que 


M S'apu(X)= | D cxqn (2) f (= 


k=! oo hk=! 
= de, | pr(z)f(x)dr= D cxMqa(X). (7) 
k=1 — 00 Rai 


Remarquons maintenant que toutes variables aléatoires com- 
plexes X, = Xr+iXk (k—1, ..., n) peuvent être considérées com- 
me des fonctions d’un vecteur aléatoire X à 2r dimensions de coordon- 
nées X,, X1, ..., Xn, Ja, Xn = Qn (X) (4 = 1, -.., n) *). C'est 
pourquoi il découle de (7) en particulier que pour toutes variables 


aléatoires scalaires X,, ..., X,, réelles ou complexes, on a la rela- 
tion : | 
n n 
M à ChÂ R — > CrMÂXpe (8) 
k=1 k= 


*) On va montrer au point 4.1.3 que, en considérant une variable aléatoire 
réelle comme la coordonnée d'un certain vecteur aléatoire et en calculant son 
espérance mathématique comme l'espérance mathématique de la fonction de ce 
vecteur aléatoire, nous obtenons à partir de la formule (8) le même résultat au- 
quel nous conduisent les calculs effectués à l’aide de la formule (3). 
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Ainsi l'espérance mathématique d’une fcnction linéaire des variables 
aléatoires est égale à cette même fonction de leurs espérances mathéma- 
tiques (propriété de linéarité de l’opération de calcul de l’espérance 
mathématique *)). 

Dans le cas particulier où r = 1 il en découle que lorsqu'on 
multiplie une variable aléatoire par un nombre, son espérance mathéma- 
tique est multipliée par ce même nombre. 

3. Quand ce, = ... = c, = 1, il découle de (8) le théorème 
d'additivité des espérances mathématiques: l'espérance mathéma- 
tique de la somme de variables aléatoires est toujours égale à la somme: 
de leurs espérances mathématiques : 


M TS Xr= À MXn. (9) 
Rk=! R=î 


4. Il est clair que les formules (7)-(9) sont valables aussi bien 
pour les variables scalaires, que pour les variables matricielles (en 
particulier, pour les variables vectorielles si l’on utilise la représen- 
tation des vecteurs sous forme de matrices-colonnes) c, À, c;, ... 

ss Cns À + + + Ân- Il découle de (8) que pour toute matrice non 
aléatoire € et pour toute variable aléatoire X vectorielle ou matri- 
cielle on a une égalité: 


MCX = CMX. (10) 
De façon identique, il découle de (8) la formule suivante : 
MXC = (MX) C. (11) 


Il est clair que dans le cas des matrices rectangulaires (non car- 
rées) C et X la lettre C dans (10) et (11) ne peut représenter la même 
matrice. La combinaison de la propriété 1) et de (10) nous donne la 
relation 


M (AX + as) = AMX + & (12) 


5. Il. découle enfin des propriétés de l'intégrale que 
IMXI<MIX| (13) 


pour toute variable aléatoire, scalaire ou vectorielle. Dans ce dernier 
cas le module correspond à la norme euclidienne du vecteur: 


LL 

o Q 
IX= IX, 

p=1 


*) Nous appellerons opération ou opérateur d'espérance mathématique le 
passage d'une variable aléatoire à son espérance mathématique. 
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S 2. Les moments du second ordre 


2.1. La variance. Nous pouvons maintenant définir des analogues 
abstraits de toutes les caractéristiques numériques empiriques du 
paragraphe 1.2. Il suffit pour cela de remplacer tous les moments 
‘empiriques par les espérances mathématiques. Mais tout d’abord 
introduisons la notion de variable aléatoire centrée. 

On appelle variable aléatoire centrée la différence entre la variable 
aléatoire et son espérance mathématique, c'est-à-dire l'écart entre 
la variable aléatoire et son espérance mathématique. Nous noterons 
les variables aléatoires centrées par un indice supérieur 0, X° — X — 
— Mrs Y9 = Y — my, etc. 

On appelle variance d’une variable aléatoire scalaire l'espérance 
mathématique du carré du module de la variable aléatoire centrée 
‘correspondante. 

Nous noterons la variance de la variable aléatoire X par DX 
ou en abrégé D, *): 


D,=DX=MIX | =MIX—m,|®. (14) 


On appelle écart quadratique moyen ou écart type 6. de la variable 
aléatoire X la racine carrée positive de sa variance: 


0x =V D; =V DX. (15) 


Pour obtenir la formule de calcul de la variance, il suffit de poser 
dans la formule générale (3) pour l'espérance mathématique d’une 
fonction de la variable aléatoire q (X) = | X° |* = | X — m. |* 
et respectivement œ (x) = | z — m, |“. Si X est une variable aléa- 
toire réelle, alors la formule (3) nous conduit à la relation 


D,=DX= | (z—m)°f (x) dx, (16) 


‘où f (x) est la densité de probabilité de la variable X. Si X est une 
variable aléatoire complexe X — X° + iX”, alors nous obtenons de 
Ja formule (3) l'expression : 

D, = DX = | | |z'his"—m,l2f(x, hdd, (17) 


00 —0 
Où f (x, x”) est la densité de probabilité conjointe des variables aléa- 
toires X” et X”. 


*) Parfois, et particulièrement dans la littérature étrangère, la variance 
do la variable X est notée VX, de l'anglais variance. 
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En portant dans (16) l'expression (2.24), nous obtenons la for- 
mule de la variance d’une variable aléatoire réelle discrète : 


N 
D,=DX = Ÿ (zn— m;)? pa. (18) 
h=1 


En portant dans (16) l'expression (2.25), nous obtenons la for- 
mule de la variance d’une variable aléatoire continue discrète : 


co N 
D,=DX= | (2m)? fifa) dr+ (am) pa. (19) 
— 00 k=—1 


Excmple 1. Trouver l'espérance mathématique et la variance du 
nombre X de réalisations de l'événement À au cours de n épreuves indépendan- 
tes, si la probabilité de l'événement À au cours de chaque épreuve est égale à p 
(distribution binomiale, exemple 2.1). 

Nous trouvons à partir de la formule (2) que: 


n n 
Mx= D MmPmn= D) mCrpmqt-m, q—1—p. 
m=0 m=—=0 


Pour calculer cette somme nous utiliserons la fonction génératrice (1.25) : 


Pn (u)= D Pm, num =(q+ pu)". 


m=0 
En dérivant cette formule par rapport à u, nous obtenons 
n 
phu)= D) mPm, nuti=np(g+pu)t1. (1) 
m=—=0 
En portant ici u — 1 et en tenant compte de la relation q + p = 1, nous trou- 
vons 
n 
SO MPmin=@n(1)=np. 
m= 


Nous avons ainsi obtenu l'expression m, = np. 
Pour calculer la variance, nous utiliserons la formule (18): 


LC n 
Dx= D (m—np}Pmn= }) MPm.n— 
Mm=0 m=0 


n n 
— 2np », MmPm, n +nr°p* >» Pm.n. (1) 


Mna0 Mus0 


Nous avons déjà calculé la seconde somme qui est égale à np. La troisième som- 
me cst égale à 1 en vertu de la propriété principale des distributions discrètes 
(nous obtiendrons évidemment la même chose en posant dans l'expression de la 
fonction génératrice (1.25) u — 1). Pour calculer la première somme, multi- 
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plions (1) par uw et dérivons le résultat par rapport à u: 


n n 
d ; d 
PTE [uœp., (u)] = FT ÿ mPm.num—= D MmiPm. num i= 
mæ=0 Ma 


d 
= [rpu(g+ pu} ]=np(q+npu)(q + pu}. 
En posant ici u — 4, nous trouvons l'expression 


D Pan [ph (uns = np (a+ np) 
m=0 


En portant les expressions ainsi trouvées des sommes dans (11), nous obte- 
nons D, = npq. 

Exemp Le 2. Trouver l'espérance mathématique et la variance de la 
variable aléatoire X suivant une loi de distribution de Poisson (exemple 2.3). 

Nous trouvons à partir de la formule (2) pour l'espérance mathématique : 


Le») Co œ 
m m—1 
mes Dans Dnppe net D Dr 
m=0 m=1 Mmæ= 1 
pen far Ho Ur de )= ue = 
—=he (1+ TR 2] +... + k! +... = He € He 


Nous obtenons alors en vertu de la formule (18) la variance: 


La 


Ds >» (m—u)? Pm= D m (m—1) et 


m0 Mme? 
O0 O0 
(Qu 1) D nus SET ,-u 
(2u P> me hu >> re  () 
m=1 m=0 


La seconde somme que nous avons déjà calculée est égale à u. La troisième som- 
me est égale à 1. 11 reste à calculer la première somme: 


Loo co 

4 _ un Sets oi pm 7 
> m,(m—1) mr a ee > (m—2} #" ° 
m=0 m=2 


En portant Îles expressions trouvées de ces sommes dans (III) nous obtenons 
D; = p. Ainsi l’espérance mathématique et la variance d'une variable aléatoire 
distribuée selon une loi de Poisson sont égales au paramètre 1 de (1.46). 

Exemple 3. Pour une variable aléatoire X distribuée selon une loi 
uniforme dans l'intervalle (a, b) (exemple 2.5) les formules (6) et (16) nous don- 
nent 


d ‘b : 
_ zdr __a+b ” _.,a+b \? ‘dx _ (b—a)? 
mise, mnf (eee) de ce 
a Q 


b—a 42 
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Exemple 4. Pour une variable aléatoire X distribuée selon une loi 
exponentielle (exemple 2.8), nous obtenons 


Où Oo 
2 
Mix = À zke-he de = — , D,= À (= ——+—) ke-kx di. 
0 0 


E xemple 5. Dans les conditions de l'exemple 2.14 l'espérance mathé- 
matique et la variance du temps S de fonctionnement du système après la pre- 
mière réparation sont définies par les formules (5) et (19): 


to 
Ms = | ske —Ato—s) ds + 0.e—Ato =t—— (4 . e=Àto ), 
0 


to 
D, = [ s—tot+ (4 = eo) |’ eos) Gs + 


+ Or + (4 _ ee) | e7Mo= 


= (1 . 720) — He Mo, 


E xemple 6. Considérons un exemple de variable aléatoire ne possé- 
dant ni espérance mathématique, ni variance. Pour cela, étudions une variable 
aléatoire X distribuée selon une Lot de Cauchy, qui est définie par la densité 
de probabilité 


4 b 
OT GT (20) 
Nous avons alors dans ce cas 
D. C z b dx _ 1 ol du 
mes | Égpéares jeton érmst 
b C u du 
Fa | 1+us ° 


L'intégrale impropre figurant dans cette formule diverge étant donné que 


{ lulae À udu_ 


Par conséquent, la variable aléatoire X n'a pas d'espérance mathématique. 
Toutefois si l'on tient compte de la symétrie de la distribution de Cauchy par 
rapport au point a et si l’on interprète respectivement l'intégrale figurant dans 
(IV) au sens de la valeur principale de l’intégrale de Cauchy [69], [109], nous 
aurons 


N 
b …. u du 
meet lin | ghiree 
IN 


94 CARACTERISTIQUES DES VARIABLES ALÉATOIRES (CH. 3 


Dans ce cas la variance de la variable aléatoire X est définie par la formule 


LENCO 


C0 O0 
__ b (x—a)? dr  b? u? du 
Luz Tu 


Nous voyons ainsi qu’une variable aléatoire distribuée selon la loi de Cauchy 
n'a pas de variance, même dans le cas où l’on considère que son espérance mathé- 
matique existe et est égale à a à l’appui de considérations de symétrie. 


2.2. Covariance. On appelle covariance des variables aléatoires 
X et Ÿ l'espérance mathématique du produit de la première va- 
riable aléatoire centrée et de la valeur conjuguée de la seconde va- 
riable aléatoire centrée : 


k., = MXY. (21) 


Pour obtenir la formule de calcul de la covariance des variables 
aléatoires réelles X et Y, il suffit de considérer X°Y° — (X — m,) x 
X (Ÿ — m,) comme une fonction des variables aléatoires 
X et Ÿ et d’appliquer la formule (3): 


ky= | Ü (m2) (y—m) (a, y) dx dy, (22) 


— 00 —©œo 


où f (x, y) est la densité de probabilité conjointe des variables aléa- 
toires X et Y. 

Pour obtenir la formule de calcul de la covariance des variables 
aléatoires complexes X — X’ + iX” et Y — Y’ +iY”, il suffit 
de considérer le produit X°Y® comme une fonction d’un vecteur aléa- 
toire quadridimensionnel de coordonnées X”, X”, Y”, Y”. Nous obte- 
nons alors 


kxy = | | Î (x'+ixz"— mx) (y'—iy"—m,) x 
X f(x’, x”, y’, y")dx' dx” dy’ dy”, (23) 
oùf(x’,x", y’, y")est la densité de probabilité conjointe des variables 
aléatoires X”, X”, Y’, Y”. 
On adopte en qualité de caractéristique de dépendance entre deux 
variables aléatoires X et Ÿ le rapport de leur covariance au produit 


de leurs écarts types. Cette grandeur sans dimension est appelée 
coefficient de corrélation des variables aléatoires X et ŸY : 


QU EE FE « 
y OxOy V D,D, 


Ainsi, pour obtenir les caractéristiques numériques d’un vecteur 
aléatoire bidimensionnel il convient d'ajouter aux espérances ma- 


(24) 
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thématiques et aux variances de ses coordonnées leur covariance ou 
le coefficient de corrélation. 

Il est évident que la covariance de la variable aléatoire X avec 
elle-même est égale à la variance #,. = D, et son coefficient de 
corrélation avec elle-même est égal à l'unité, r,.. = 1; k,y = D, 
rey = À et dans le cas plus général, où Y° = X°, m, = m.…. 


Exemple 7. Trouver la covariance des coordonnées d’un vecteur aléa- 
toire uniformément distribué sur un rectangle |rz| <a, |y| <b (exem- 


ple 2.10). 
En portant dans (22) l'expression (2.20) de la densité de probabilité et en 
tenant compte du fait que dans le cas présent m, — m,, = 0, nous obtenons 
a b 
| { # ” 
kxy= | | + dx dy = 0. 
-a -b 


Exemple 8. Pour un vecteur aléatoire bidimensionnel suivant une 
distribution uniforme à l’intérieur de l’ellipse r°/a° + y?/b® = 1 (exemple 2.10). 
mx = My — 0 et nous obtenons 

a V 1-x*/at 
kxy = | dx 


a VT=xifes 


Try dy 
nab 


Exemple 9. Pour un vecteur aléatoire bidimensionnel suivant une: 
distribution uniforme à l’intérieur de l'ellipse z°/a° + (y — cr)®/b°? = 1 m, = 
= m, = 0 ct l'on a 

(: cx+b V1-x2/u 
| TI ca* 
kxu = | so J ob V2 


Ca ex-bVT=RVeE 


2.3. Variables aléatoires corrélées et non corrélées. La dépendance 
entre les variables aléatoires caractérisée par le coefficient de corré- 
lation est appelée la corrélation. Les variables aléatoires sont dites 
corrélées si leur coefficient de corrélation est différent de 0. Les va- 
riables aléatoires sont dites non corrélées si leur coefficient de corré- 
lation est nul. 

Il découle de (24) que les variables aléatoires sont non corrélées 
si et seulement si leur covariance est nulle. 

On voit aisément que la condition suffisante de non-corrélation 
des variables aléatoires est que leur loi de distribution conjointe 
soit symétrique par rapport à une droite quelconque parallèle à 
l'un des axes de coordonnées. 

Exemple 10. La covariance des variables aléatoires X ct Y — X° 


dans le cas d'une distribution uniforme de X dans l'intervalle (—a, a) est éga- 
je à O0: 


* æ(r—m 
Rx y = | AA stat 1 a u) dr =0. 
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Par conséquent, les variables aléatoires X et Y — X2 sont non corrélées, 
bien qu’elles soient liées par une dépendance des plus rigides, une dépendance 
fonctionnelle. 


2.4. Moments du premier et du second ordre. L’espérance mathé- 
matique, la variance et la covariance sont des cas particuliers des 
moments des variables aléatoires. 

On appelle moment du premier ordre (premier moment) d'une va- 
riable aléatoire son espérance mathématique. 

On appelle moment du second ordre (second moment) d'une variable 
aléatoire X (dans le cas général, complexe) l'espérance mathématique 


Yx = MIX | ?. (25) 


On appelle moment centré du second ordre de la variable aléatoire 
X le moment du second ordre de la variable centrée X° = X — m,, 
c'est-à-dire sa variance. 

On appelle moment du second ordre de la variable aléatoire X par 
rapport au point a le moment du second ordre de la différence X — a: 


Vx (a) =MIX—-a}*. (26) 


Il est évident que y, = Y+ (0), D, = y+ (mL). 

On appelle moment mixte du second ordre des variables aléatoires 
X et Ÿ l'espérance mathématique du produit de la première variable 
par la valeur conjuguée de la seconde : 


Yau = MXY. (27) 


On appelle moment centré mixte du second ordre des variables aléa- 
toires X et Y le second moment mixte des variables aléatoires cen- 
trées X° et Y, c'est-à-dire la covariance des variables X et Y. 

On appelle moment mixte du second ordre des variables aléatoires 
À et Ÿ par rapport aux points a et b le second moment mixte des 
différences X — a et Ÿ — b: 


Vey (@&, b) = M(X — a) (Y — b). (28) 


Il est clair que l’on a la relation Yau = Vzy (0, 0), Æcy = Yzy (Mxr My) 

D En portant dans (25) et (27) les valeurs X = m, + X°, 
Y = m, + Yet en utilisant les propriétés (7) et (9) des espérances 
mathématiques, nous obtenons les expressions des moments du se- 
cond ordre en fonction des espérances mathématiques et des moments 
centrés du second ordre: 


Yzx = D, + Im. |, (29) 
Vry — key + MM y- (30) 
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Nous obtenons de façon analogue à partir de (26) et (28) les rela- 
tions 


Ysx (a) =D,+Im —al*, (31) 
Vey (a bd) = kxy + (ms — a) (m, — b). (32) 


Ainsi, tous les moments du second ordre s'expriment en fonction des 
espérances mathématiques des variables aléatoires et de leurs moments 
centrés du second ordre. 

La formule (31) montre que La variance d'une variable aléatoire est 
le plus petit moment du second ordre. 


$S 3. Moments du second ordre des vecteurs aléatoires 


3.1. Moment du second ordre, matrice de variances-covariances, 
matrice de corrélation. On appelle moment du second ordre (second 
moment) du vecteur aléatoire X la matrice des moments du second 
ordre de toutes ses coordonnées : 


Vas  Vaz = Vin 
Fi = Vas Y2e --- Le Yra= MX Xa. (33) 


Le moment du second ordre du vecteur aléatoire centré X° — X — 
— m, est appelé matrice de variances-covariances du vecteur aléa- 
toire ZX : 


, kna=MXpX. (34) 


kin kn2 des kan 


En mettant le vecteur X sous la forme d’une matrice colonne, 
nous pouvons récrire les définitions du second moment et de la ma- 
trice de variances-covariances du vecteur aléatoire X sous la forme : 


T,=MXX*, K,—= MXX0%, (35) 


où le signe étoile indique l'opération de transposition de la matrice 
avec le remplacement de tous ses éléments complexes par les valeurs 
conjuguées correspondantes. 

La matrice dont les éléments sont les coefficients de corrélation 
des coordonnées X,, ..., X, du vecteur aléatoire X est appelée 


17-0244 
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sa matrice de corrélation : 
1 Fist lis 


To 4 CC Ta k 
R.=\ "* Fo Re Te (36) 
pq —— : 
. e e. e . e . . . V'kppkgq | 
Tn1 Tn2 CRC sl 


> En portant dans la première formule (35) la valeur X = m, + 
+ X°et en utilisant les propriétés (7) et (9) des espérances mathé- 
matiques, nous obtenons une relation entre le moment du second 
ordre, la matrice de variances-covariances et l'espérance mathématique 
du vecteur aléatoire : 


T,—=K,+ mm. 4 (37) 


3.2. Moment croisé du second ordre et matrice de covariances 
croisées. Etendons la définition (35) en appelant moment croisé 
du second ordre (second moment) de deux vecteurs aléatoires X et Ÿ 
la matrice (dans le cas général, rectangulaire) 


Ty = MXY*. (38) 


On appellera matrice de covariances croisées ou covariance des 
vecteurs aléatoires X et Ÿ” le moment croisé du second ordre des 
vecteurs aléatoires centrés correspondants X° — X — m, et Y° = 
=Y —m,, K,, = MAY. 

Le moment croisé du second ordre, la matrice de variances- 
covariances et les espérances mathématiques des vecteurs X et Y 


sont liés par une relation analogue à (37): 
Vey = Key + May. (39) 


Les vecteurs aléatoires X et Y sont dits corrélés si K,, # 0 et 
non corrélés si K,, == 0. Il découle de cette définition que les vecteurs 
X et Ÿ sont non corrélés si et seulement si chaque coordonnée de l’un 
des vecteurs aléatoires n’est pas corrélée avec toutes les coordonnées 
de l’autre. 

3.3. Opérateurs des moments du second ordre. On sait que toute 
matrice définit un opérateur linéaire qui applique un espace dans 
un autre (ou dans lui-même). 

L'opérateur linéaire l', défini par la matrice l’, est appelé opé- 
rateur du moment du second ordre du vecteur aléatoire X. 

On appelle opérateur de covariance du vecteur aléatoire X l'opé- 
rateur du moment du second ordre du vecteur aléatoire centré 
correspondant X°, c'est-à-dire l'opérateur K, défini par la matrice 
de variances-covariances À, du vecteur X. 

On définit de façon analogue l'opérateur croisé du moment du 
second ordre et l'opérateur de covariance croisée des deux vecteurs 
aléatoires X et Y. 
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Dans le cas particulier d’une variable aléatoire scalaire X l’opé- 
rateur de covariance Æ, est un opérateur de produit par la variance 
D, de cette variable aléatoire. 

3.4. Propriétés des moments du second ordre. 1. Il découle de 
(33)-(35) que les moments du second ordre des vecteurs aléatoires possè- 
dent une symétrie hermitienne (sont hermitiens): 


TS = MXYSXE = MXX* = LT, Yon = Ypq (40) 


2. 11 découle de (35) que les matrices T, et K, sont définie 
non négatives. 

D En effet, nous avons pour tout vecteur (toute matrice colon- 
ne) u 


uTT,.u=— M (uTX)(X*u) = M(XTu)(X'u)=M]|XTul2>0, (4}s 


et le signe d'égalité n’est possible que si et seulement si XTu — 0 
avec une probabilité 4, c’est-à-dire quand les coordonnées du vecteur 
aléatoire X sont liées par une dépendance fonctionnelle linéaire. 
En effet nous avons 


M | XTu F= | | Tu |2 f (x) dx = | |2Tu |? f(x) dr >0, 
— co leTul>0 


si 
P(|X7u|=>0)=— | f(x) dr> 0, 


1x Tul>0 


ici l'inégalité sous le signe d'intégration indique que le domaine 
d'intégration est la partie de l’espace pour laquelle cette inégalité 
est vérifiée. 

Ainsi, le moment du second ordre d’un vecteur aléatoire est une ma- 
trice hermitienne définie non négative. Nous allons voir au paragraphe 
4 que toute matrice possédant ces deux propriétés peut être considérée 
comme une matrice de variances-covariances et par conséquent com- 
me le moment du second ordre d'un certain vecteur aléatoire. 

3. On vérifie aisément que quand on modifie l'ordre des vecteurs 
aléatoires leur second moment croisé et leur matrice de covariance croisée 
se transforment en matrices hermitiennes conjuguées : 


lyx = ECT K yx SE Key (42) 


4. 11 découle du fait que la matrice l. (Æ,) est définie non néga- 
tive que son déterminant est réel, non négatif et n'est égal à O que si 
et seulement si les coordonnées du vecteur aléatoire X (respectivement 
X® = X — m.) sont liées par des dépendances fonctionnelles linéaires. 

En effet le déterminant d'une matrice hermitienne est égal au 
produit de ses valeurs propres, et les valeurs propres d’une matrice 
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hermitienne définie non négative sont toutes non négatives. Ilen 
découle que le déterminant de la matrice l', (X,) est non négatif et 
n'est égal à O que si et seulement si il possède une valeur propre nulle. 

Si 0 est une valeur propre m-uple de la matrice l, (Æ,) (c'est-à- 
dire si m de ses n valeurs propres sont nulles), alors dans l’espace des 
valeurs du vecteur X il existe m vecteurs mutuellement orthogonaux 
Pis + + <> Pm pour lesquels on a 


Vpn 0 (p=1,..., m). 


En multipliant cette relation à gauche par œ?, nous obtenons, compte 
tenu de (35), l'égalité 


Pl'aPx = MEXX*, = M | qppX 1° 
Il en découle qu'avec une probabilité 1 nous avons 
qpX =0 (p—=1,..., m). 


Ainsi, dans le cas de l'existence d’une valeur propre O0 m-uple de la 
matrice l', les coordonnées du vecteur X sont liées entre elles par 
m relations linéaires indépendantes. Dans ce cas la distribution du 
vecteur X est entièrement concentrée dans le sous-espace de dimen- 
sion (n — m) engendré par les ñ7 — m vecteurs propres de la matrice 
T, correspondant aux valeurs propres différentes de O (respective- 
ment dans le sous-espace de dimension (n — m), engendré par les 
n — m vecteurs propres de la matrice X,, translaté par le vecteur 
m.). En d'autres termes, la matrice T, (K.) est de rang r si et seulement 
si La distribution du vecteur aléatoire X est entièrement concentrée dans 
le sous-espace de dimension r (respectivement dans un sous-espace de 
dimension r translaté par le vecteur m.). 

5. En exprimant en vertu de (36) les éléments de la matrice de 


covariance K, par la formule k,, = rpa V Kppkqqr nous vérifions 
que le déterminant de la matrice de corrélation est non négatif et n'est 
égal à O que si et seulement si les variables aléatoires XY, ..., Xn 
sont reliées par des dépendances fonctionnelles linéaires. Dans ce cas, 
le rang de la matrice de corrélation est égal à r si et seulement si la 
distribution du vecteur X est concentrée dans le sous-espace de dimension 
r translaté par le vecteur m.. 
Nous avons ainsi pour tout n les relations 


Vas Vis --e Vin kg Kio ... Kin 
Vos Vos --- Yon >0, ko Koo ... Kon >0, (43) 
Yni Yn2 --- Ynn kh: kne .… k;x 


et une inégalité analogue est valable pour le déterminant de la ma- 
trice de corrélation. 
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6. Quand n — 2, les inégalités (43) et l’inégalité analogue va- 
lable pour la matrice de corrélation nous donnent les relations: 


| V12 IV V41 Vo: | ie IV kiskoo, [rie | 1. (44) 


Cette dernière inégalité confirme le fait que le coefficient de corré- 
lation des variables aléatoires ne peut être en module supérieur à 1, et 
que son module n'est égal à 1 que si, et seulement si, les variables aléa- 
toires centrées sont liées par une dépendance linéaire. 

7. En posant X, = X, X, = Ÿ, écrivons la première inégalité 
(44) sous la forme 


IMXY PS MIXI©MIY |: (45) 


Le signe d'égalité n'est possible ici que si, et seulement si, les va- 
riables aléatoires X et Ÿ sont liées par la dépendance linéaire c,X + 
+ cY = 0. 

8. Remarquons que toutes les propriétés des matrices l, et A, 
que nous avons établies sont valables pour des matrices l', et K. 
définies par les formules (35) dans le cas également où X est une 
matrice rectangulaire quelconque. Dans ce cas, les éléments des 
matrices let K, sont définis par les formules 


m m 
Va = M S XprXgrn  Epa=M À Xprkgr: 
remi in 
En introduisant les vecteurs (les matrices-colonnes) 
Xp — [Xp CE XpmWT (p — 4, . n), 
on peut représenter les formules définissant y,, et #»Q Sous la forme 
Vra= MXDX a kpa= MXÿ Xg. 
Ainsi, en posant X, = X, X: = Ÿ, nous écrirons la première formule 
(44) sous la forme 
|MXTY |£<M]|X|°MI}Y |*. (46) 
Le signe d'égalité dans (46) n’est possible que si, et seulement si, 
les vecteurs aléatoires X et Ÿ sont liés par la dépendance liné- 
aire GX + c2Y = 0. 
En prenant dans (46) le vecteur Ÿ dont toutes les coordonnées 


sont égales à 1, Ÿ = [1, ..., 1]7T, nous obtenons pour tout vecteur 
X — [X; .. X n 1? : 


#1 
po à 


| 
ræ= 1 


> MX <mMIX(=m MIX, 2. 69 


3.5. Transformations linéaires des vecteurs aléatoires. Considé- 
rons maintenant le vecteur aléatoire Ÿ que l'on obtient par une trans- 
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formation linéaire du vecteur X : 
Y = AX + a, (48) 


Son espérance mathématique est définie par la formule (12), que 
nous écrirons sous la forme 


My = AMz + Go. (49) 
En retranchant (49) de (48), nous obtenons Ÿ° — AX°. En 


utilisant cette relation et la définition (35), nous obtenons la matrice 
de variances-covariances du vecteur Ÿ : 


K, = MY'Y®* = MAX°X*A*. 
Or il découle de (10), (11) et (35) la relation 
MAXX0*A* — A (MX0X#) A* = AK,A*. 


Nous avons ainsi: 


K, = AK,A*. (50) 


Cette formule montre que, lors de la transformation du vecteur aléa- 
toire X par un opérateur linéaire de matrice À, sa matrice de variances- 
covariances est multipliée à gauche par la matrice À et à droite par la 
matrice hermitienne conjuguée A*. 

Dans le cas particulier, où Ÿ est une variable aléatoire scalaire, 
A est une matrice-ligne, À = {a,, . .., a,l, et la formule (50) dé- 
termine la variance de la variable aléatoire Y : 

LD = 
D, = D k pq pa. (51) 
P, qui 

Dans le cas particulier où les variables aléatoires X,, ..., X, 

en sont pas corrélées, cette formule se met sous la forme 


n 
D, = >: Dplapl?, (22) 
p=i 
où D, = k,,;, est la variance de la variable X, (p =1,...,n). 


Dans le cas particulier où rz = 1, il en découle que quand on multiplie 
une variable aléatoire par un nombre sa variance est multipliée par le 
carré du module de ce nombre. 

On démontre de façon analogue la formule : 


Kru = AK ;,B* (93) 
pour la matrice de covariances croisées des vecteurs aléatoires 
Z=AX +a, U=BY +b.. (54) 


Dans le cas particulier où Y = X, la formule (53) se met sous 
la forme : 


K. = AK.B*. (55) 
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Cette formule définit la matrice de covariances croisées des vecteurs 
aléatoires Z et U obtenus par deux transformations linéaires 
différentes d’un seul et même vecteur aléatoire X : 


Z=AX+as, U = BX + b,, (56) 


Dans le cas particulier des variables aléatoires Z et U scalaires, 
les matrices À et B sont des matrices-lignes, À — [a;, ..., a,l, 
B = [b,, ..., b,let la formule (55) définit la covariance des varia- 
bles aléatoires Z et U : 


n 

3 Es 

kiu = 7 k pq@ nba- (07) 
P, 1=1 

Dans le cas particulier des coordonnées non corrélées X,, ..., X, 

du vecteur X, cette formule se met sous la forme : 


na 


ku = à Da pl}, (58) 


où Dh = Kkpp(p = 1, ...,n). 

Pour mettre la formule (50) dans le cas des variables aléatoires 
non corrélées X,, ..., X, sous une forme commode pour les appli- 
cations, nous allons considérer le p-ième vecteur de la matrice À 
comme une matrice-colonne a, : 


dp —= [a; paop CC] Anp\T (p — 1, ._. 3 n). 


Dans ce cas, la formule (48) définissant le vecteur Y se met sous la 


forme suivante : 
ñ 


Y = X 0 p + @o- (59) 
pP= 
La formule (50) définissant la matrice de variances-covariances 
vecteur }” prend alors, compte tenu du fait que k,, — 0 quand 
q Æ p, la forme suivante 
n 
Ky = D ,a ap, (60) 

où Dh = kyn désigne la variance de la variable aléatoire X,, c'est- 
à-dire le p-ième élément de la matrice diagonale K, (p — 1, ..., n). 

Naturellement, la formule (60) peut être établie directement à 
partir de (59) en prenant en considération les propriétés (9), (10) et 
(11) des espérances mathématiques. 

La formule (55) peut se mettre sous une forme analogue dans le 
cas où le vecteur X a des coordonnées non corrélées. 

Remarquons que dans le cas des transformations linéaires sans 
translation (48), (54), (56), où a, — b, — 0, les relations (50), 
(53), (55) sont valables également pour les seconds moments T. Il 
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convient toutefois de se rappeler que si a,, b, + 0, alors les formules 
(50), (53) et (55) ne sont valables que pour les matrices de covarian- 
ces 


Exemple 11. Trouver l'espérance mathématique et la variance de la 


fréquence P de l'événement À lors de n épreuves indépendantes, si la probabili- 
té de À au cours de chaque épreuve est égale à p. 

Soit X} le nombre de réalisations de l'événement A au cours de la k-ième 
épreuve. Cette variable a deux valeurs possibles : 0 et 1, dont les probabilités 
sont respectivement égales à q — 1 — p et p. C'est pourquoi son espérance 
mathématique m, et sa variance D, sont définies par les formules (2) et (18): 


my, = 0e + 1-p = p, 
Dr = (0 — p}°-g + (A1 — pep = pq + gp = pq. 
Ainsi, toutes les variables aléatoires X,, ..., X, ont les mêmes espérances 


mathématiques et variances, respectivement égales à p et pq. La fréquence de 
l'événement au cours de #7 épreuves est définie par la formule 


; 9 
Rk=1 


étant donné que le nombre de ses réalisations au cours des nr épreuves est égal 
à la somme des nombres de ses réalisations au cours de chacune des épreuves, 


c'est-à-dire X1 + ... + X,. Ainsi, la fréquence P est une fonction linéaire 
des variables aléatoires X,, ..., X,. C'est pourquoi, pour trouver son espé- 
rance mathématique, on doit appliquer la formule (49): 


n 
= 1 
M P nu D MX Rp = — (2P)=p. 


Pour calculer la variance de la fréquence P, rte qu'en vertu du théorè- 
me qui sera démontré au point 4.2.4, il découle de l’indépendance des épreuves 
Giles variables aléatoires X1, . .., X,, sont non corrélées. C’est pourquoi pour 
calculer la variance on peut appliquer la formule (52): 


ñ 
À _ pq 
D 2 Ph RMIe 
k=1 


On peut obtenir ce même résultat en utilisant les résultats du calcul de l'es- 
pérance mathématique et de la variance du nombre X de réalisations de l'évé- 
nement À au cours de n épreuves, que nous avons réalisé dans l'exemple 1, et 


en remarquant qu'en vertu de la relation P — X/non a les égalités 


MB=— mx, DP——< px. 
n n 


Enfin, en remarquant que X = X1 + ... + Xh», on peus obtenir d’une 
manière bien plus simple le résultat de l'exemple 1 a l'aide des formules de 
l'espérance mathématique et de la variance de la somme des variables aléatoires 
non corrélées. 
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Exemple 12. Trouver l'espérance mathématique et la variance de læ 


moyenne arithmétique X des variables aléatoires réelles X;,, ..., X,. 
Nous trouvons, à partir des formules (49) et (51), les expressions 


n ñn 
= s__ 
MX =— DOMXp, DX=— D kpgs 
p=i p, qi 


où k,g = MXPXÿ. Dans le cas particulier des variables non corrélées X:, ... 
Sets Ye cette dernière formule se met sous la forme: 


n 
= _ | 
DX=— D Dn 
p=1 
où D, = kpp(P= 1, ..., n). Enfin, dans le cas où les variables X;,, ..., X, 


ne sont pas corrélées et possèdent les mêmes espérances mathématiques et les 
mêmes variances respectivement égales à m, et D., les formules obtenues nous 
donnent les expressions: 


= Â = | Dr 


Exemple 13. Trouver l'espérance mathématique et la matrice de va- 
riances-covariances du vecteur aléatoire Z dont les coordonnées Z;, ..., Z, 
sont les nombres de réalisations des valeurs r1,..., rx de la variable aléa- 
toire discrète X au cours de x épreuves indépendantes, si au cours de chaque 
épreuve P X = 2) = pi (NE, . 

Soit Z() le vecteur aléatoire dont les coordonnées sont les nombres de réa- 
lisations des valeurs x, ..., xx au cours de la i-ième épreuve. Il est évident 
que les valeurs possibles du vecteur Z(*) sont les vecteurs unitaires de l’espace 
a N dimensions 


e = 1, 0, ..., 0}, es = (0, À, 0}, ex — {0, ..., 1}, 


étant donné qu'au cours d’une seule épreuve une seule des valeurs r1, ..., 7 
est réalisée. Les probabilités de ces valeurs sont égales à p,, . .., px. Par con- 
séquent, l'espérance mathématique du vecteur Z{?) est: 


N 


[MZW= D EyPv={P1r «0.9 PN}=P. 
Vas { 


Ainsi, l'espérance mathématique du vecteur Z({) est un vecteur p dont les coor- 
données sont les probabilités p1, . .., pn des valeurs r;, ..., xx de la va- 
riable aléatoire X. Pour calculer la matrice de variances-covariances du vec- 
teur Z{i), trouvons d’abord son moment du second ordre [”’. Remarquons que la 
coordonnée v du vecteur Z{i) est égale à 1 avec une probabilité p, et à 0 avec 
une re 1 — p,; nous trouvons alors les éléments diagonaux de la 
matrice : 


vov = L2epy + 05.(1 — ps) = ps. 
Etant donné qu'il n’est pas possible que deux coordonnées du vecteur Z(i) soi- 


ent simultanément différentes de 0, leur produit est égal à 0 avec une probabi- 


lité 4. C'est pourquoi yvu = 0 quand u  v. Après avoir déterminé les moments 
du second ordre des coordonnées du vecteur Z({), on peut trouver leurs variances- 
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et leurs covariances à l’aide des formules (29) et (30): 
kiy= Py— Pi = Py(1— Py). 
k,,, = — PyPu, UF V. 


Ainsi, la matrice de variances-covariances Æ du vecteur Z{i) est définie par la 
formule 


K = A — ppT : 
où À est une matrice diagonale dont les éléments sont p1, ..., p\ et p est le 
vecteur-colonne de ces mêmes éléments. 
En remarquant maintenant que Z = Z() + ... + Z(9), nous trouvons 


l'espérance mathématique et la matrice de variances-covariances du vecteur Z: 


m = np, K.,=n(A— ppT). 


$ 4. Décompositions canoniques des vecteurs aléatoires 


&.1. Décomposition d’après les vecteurs propres. Dans de nom- 
breux problèmes pratiques, il est plus commode d'utiliser des vec- 
teurs aléatoires possédant des coordonnées non corrélées. Cela nous 
conduit au problème suivant de ramener tout vecteur aléatoire quel- 
<onque à un vecteur dont les coordonnées sont non corrélées (opéra- 
tion de décorrélation des coordonnées d’un vecteur aléatoire). Ce 
problème est équivalent à celui de ramener la matrice de variances- 
covariances à une forme diagonale. 

> Un résultat d’algèbre linéaire affirme que toute matrice her- 
mitienne (symétrique). peut être ramenée à une forme diagonale par 
une transformation unitaire (orthogonale). Soient À,, ..., À, les 
valeurs propres de la matrice Æ, (non négatives, étant donné que 


la matrice K., est définie non négative), @,, . .., æ, les vecteurs 
propres normés correspondants. On a alors les relations suivantes: 
KxQp = ÀAp®p (pPp=1,...,n), (61) 
(Pps Pa) = PaPn = Ôpg (P, g = 1, ..., n) *). (62) 
Soit O la matrice carrée dont les colonnes sont les vecteurs propres : 
D = [p, ... wl. (63) 

Montrons maintenant que le vecteur aléatoire 
U = D*xX° (64) 


a des coordonnées non corrélées. Pour cela, trouvons sa matrice de 
variances-Covariances à l’aide de la formule (50) 


*) Dans la première partie de la formule, le produit scalaire est écrit sous 
sa forme habituelle et dans la seconde partie sous sa forme matricielle pour 
laquelle les vecteurs sont présentés sous form? de matrices-colonnes; 6,,,, = 1, 
pa = 0 quand p  q (symbole de Kronecker). 
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K, = O*K,O — OK, [q, ..‘ p,l = O*[KX,q ... K,pl 
ou, en vertu de (61), 


wi | MB. AnDiOu 
pu 7 mob Foro es 
Nous en tirons, compte tenu de (62), l'expression 
A1 0 ... 0 
K, = 0 à 0 
0 0 Àn 


Ainsi, la matrice de variances-covariances du vecteur aléatoire U 
est diagonale. Par conséquent, ses coordonnées ne sont pas corrélées 
et leurs variances sont égales aux valeurs propres correspondantes 
de la matrice de variances-covariances K,, DU, = Àh (p = 1, ... 
sn). 
Il découle de (64) la formule suivante pour les coordonnées du 
vecteur UÙ : 


U, = q5X° = (X, ph) (p=1,...,n). (65) 


Cette formule montre que les coordonnées du vecteur U sont les 

projections du vecteur aléatoire X° sur les vecteurs propres. 
Enfin, en mettant le vecteur X° — X — m, sous forme d’un 

développement dans la base {®,, . .., @,}, nous obtenons 


ñn ñn 
À=mst+ _ (X”, Pp) Pp = Mx en VPp- | (66) 

nu = 
Cette formule donne la décomposition du vecteur aléatoire X d’après 
les vecteurs propres de sa matrice de variances-covariances. En 
comparant (66) et (59) et en appliquant la formule (60), nous obtenons 
la décomposition de la matrice de variances-covariances du vecteur 

aléatoire X d’après les vecteurs propres: 


n 
= à À pPpP>: < (67) 
Les variables aléatoires U;w,, . .., U,w, figurant dans le dé- 


veloppement (66) d’après les vecteurs propres sont appelées compo- 
santes principales du vecteur aléatoire X. Cette appellation s'explique 
par le fait que parmi les projections du vecteur À sur toutes les 
directions possibles la projection sur le vecteur propre œ, possède 
la variance maximale égale à la plus grande valeur propre À, et pour 
tout s parmi les projections du vecteur À? — U;q, — ...— U,_1p,-:1 
sur toutes les directions possibles la projection sur le vecteur propre 
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@, possède la variance maximale égale à la s-ième valeur propre 
À, (propriété extrémale des valeurs propres) [96, t. 3, p. 1]: 
À — SUP PA xP; 
lqi=1 
— 
2, = sup *(K— À ApPnD3) P. 

&.2. Calcul des valeurs propres et des vecteurs propres. Il faut, 
pour obtenir la décomposition d’un vecteur aléatoire d'après ses 
vecteurs propres, trouver les valeurs propres et les vecteurs propres 
de sa matrice de variances-covariances. Ce problème se ramène’ à 
la résolution de l'équation algébrique du n#-ième degré 


| K;— M | =0 +) 


et à la résolution de systèmes correspondants d'équations linéaires 
homogènes (61), ce qui implique des difficultés de calcul importantes. 
C'est pourquoi, pour calculer les valeurs propres et les vecteurs pro- 
pres, on utilise habituellement les méthodes de calcul approchées 
d’algèbre linéaire [107]. L’une des méthodes les plus commodes pour 
le calcul sur ordinateur est la méthode des rotations successives des 
axes des coordonnées, ramenant à la valeur 0 les éléments non diago- 


naux les plus grands en module de la matrice de variances-covariances 
[59] **+). 


Soit kpgr P << g, l'élément non diagonal de la matrice de variances-cova- 


riances K, du vecteur aléatoire réel X = [X;, ..., X, NT le plus grand en mo- 
dule. Effectuant une rotation des axes de coordonnées dans le plan formé par 
les vecteurs unitaires e, et e, de sorte que les nouveaux vecteurs unitaires e} 


et eq soient orientés suivant les axes de la projection de l’ellipsoïde u7 K,u = 
— const sur ce plan, c'est-à-dire pour que les projections X, et X; du vecteur X 


sur eL et e, soient non corrélées. Désignons par 6 l'angle de rotation; nous avons 
alors les relations 


Xp = Xp cos 60 — X, sin 6, X4 = Xp sin 6 + X, cos 6. 


Les éléments k,9, kpp+ Kag+ pr: Kar (r # P, q) sont alors transformés à l'aide 
des formules 


, 1 un 
ka = k hq COS 20 + 5 (kpp—kgq) sin 28, 


, 1 1 
k = — (Kpp+ kqa) eu TT (kpp—Kkaq) cos 20— kqq sin 20, 


’ 1 
ko (pp + kgg) — = (Kpp— kgg) COS 20+ kpq sin 20, 
kr = kpr cos O—kar sin 6, 


r L ? 
ke, = kpr Sin 60 + kr Cos 6, RE PET 


*) Nous notons 7 la matrice unité. 
*+*) Dans le recueil [94] on utilise le programme EIGEN pour calculer les 
valeurs propres et les vecteurs propres à l'aide de cette méthode. 
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et les autres éléments restent invariables. Les vecteurs unitaires e; et e; du 


nouveau système de coordonnées que l’on obtient par suite de la rotation sont 
les vecteurs 


Ds L LASER ® 
ep = en COSOÔ —e,sinO, eg = e, sin 8 + eg COS 6. 
En déterminant 6 à partir de la condition k,g — 0, nous obtenons 


2kpq 


tg 20 = — . 
kpp—kaq 


Dans ce cas, la somme des carrés des éléments non diagonaux de la matrice K, 


diminue d'une quantité k3,4. puisque k? + kOè = k3, + kÿ, pour tout r  p, q. 
Il en découle qu'en répétant de telles rotations annulant chaque fois le plus 
grand en A odule élément non diagonal de la matrice K., la somme des carrés 
des éléments non diagonaux décroît et tend à la limite vers 0. Cela démontre 
le fait que la matrice A, est ramenée par suite de la réalisation d'une suite 
infinie de ce genre de rotations à une forme diagonale, et la matrice dont les 
colonnes sont précisément les vecteurs unitaires du nouveau système de coor- 
données ne vers la matrice ®, dont les colonnes sont les vecteurs propres de la 
matrice A... 

Ainsi, la méthode des rotations successives permet de déterminer les va- 
leurs propres et les vecteurs propres avec un degré de précision voulu. 

Exemple 14. Décomposer d'après les vecteurs propres le vecteur aléa- 
toire X d'espérance mathématique m, — 0 et de matrice de variances-cova- 
riances 


1,9 1,80 1,58 1,11 0,61 
1,80 1,90 1,63 0,87 0,48 
Kx=11,58 1,63 1,74 0,9% 0,59 
1,11 0,87 0,9% 1,30 0,36 
0,61 0,48 0,59 0,36 1,10 


Appliquons la méthode des rotations successives en utilisant le sous-pro- 
gramme standard EIGEN ; nous obtenons alors pour la matrice Æ. la forme sui- 
vante (calcul sur ordinateur) *): 


6,05004 0,01°914 0,0101523 0,08246 0,05294 


0,012914 0,900250 —0,06422 — 0,012910 0,0101331 
K,=1| 0,0101523 —0,06422 0,713409  —0,010575 —0,09345 

0,08246 —0,012910 —0,019575 0,260251 0,013568 

0,06294 0,0101331 —0,09345 0,013568  0,0560337 


*) L'indice de l’exposant de 0 indique le nombre de O0 figurant avant Île 
premier chiffre significatif. Nous avons par exemple: 0.065294 — 0,000000294. 
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On obtient alors la matrice suivante des vecteurs unitaires du système trans- 
formé de coordonnées: 
0,550070 —0,0903568 —0,0148574 —0,556621 —0,615800 
0,532374 —0,247680  —0,360632  —0,195935 .0,697700 
D= 1 0,505474 —0,0373498 —0,174132 0,502011 —0,263734 
0,341577 0,00976712  0,909557 0,0580490  0,229269 
0,204499 0,963846  —0,110029  —0,0720412  0,109015 


On peut ainsi considérer que les valeurs propres de la matrice de covariances 
K, sont égales aux éléments diagonaux de la matrice A}, et les vecteurs propres 
de la matrice peuvent alors être pris respectivement égaux aux colonnes de la 
matrice ©. En se limitant aux quatre premières valeurs après la virgule, nous 
obtenons les valeurs propres À1 = 6,0500, Às = 0,9002, À — 0,7134, À, — 
— 0,2603, À, — 0,0560 et la décomposition du vecteur aléatoire X d'après 
les vecteurs propres sous la forme 


X ={U,[ 0,5501 0,5324  0,5055 0,3416  0,2045]7 + 
+ Ual—0,0904 —0,2477 —0,0373 0,0098  0,9638]7 + 
HUs([—0,0149 —0,3606 —0,1741 0,9096  —0,1100]7 + 
+U,[—0,5566 —0,1959  0,8020 0,0580 —0,0720]7 + 
LU; [—0,6158 0,6977 —0,2637 0,2293 0,1090]7. 


Le calcul de contrôle de la matrice K, d'après la formule (67) montre un écart 
avec la matrice initiale A, n'excédant pas deux unités du quatrième chiffre 
après la virgule. Les erreurs relatives n’excèdent pas 0,04 %. Cela permet de 
considérer que les vecteurs propres ct les valeurs propres de la matrice K. sont 
calculés avec un degré suffisant de précision. 


4.3. Décomposition canonique. Nous constatons que la détermi- 
nation des valeurs propres et des vecteurs propres est toujours liée 
à des calculs laborieux. Par ailleurs, la matrice de variances-cova- 
riances peut être ramenée à la forme diagonale par une infinité 
d’autres procédés si l’on élimine l'exigence que la transformation soit 
unitaire. 

D Soient j,,...,/, des vecteurs quelconques linéairement indé- 
pendants. Définissons les variables aléatoires V,, — f5X° (p — 1,... 

.., n). En vertu des formules (50) et (55), les variances et les cova- 
riances des variables V,, ..., V, sont définies par la formule 


MVVa=fpKxfa (Ps 9—1, ..., n). 


11 en découle que les variables V,, . .., V, seront non corrélées si, 


et seulement si, f1K,f4 — 0 quand q# p. 

Pour déterminer les vecteurs f,, ..., f, vérifiant la condition 
JSK fo — 0, qg = p, considérons des vecteurs quelconques linéaire- 
ment indépendants g,, . .., g, et introduisons les notations 


fi=gy Di=DV,;- TK fa Ti — D\'Kafs. 
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Nous aurons alors la relation fx; = D''fTK,f — 1. Posons main- 
tenant 


fa = Lo + Coils 


et déterminons c>, de la condition ÎTK fi == 0 ou, ce qui revient. 
au même f?r;—0. Etant donné que nous avons la relation 


fTz: — gTrs + Co1ÎTT4 —= LTXi + Cou 


alors la condition Tr, —0 nous donnera la relation c = —gîxs. 
Après avoir déterminé ainsi le vecteur 


la = g2— (Ti) far 
la variance D, — ÎTK xfo de la variable V,= fTX® et le vecteur x, — 
= D;'Kf2, nous aurons la relation 

ÎTf2 = DE ITK fa = 


et en vertu de la symétrie hermitienne de la matrice de variances- 
covariances 


flo = DE'fTK sf = D;'fTK.f: = (. 


En poursuivant ce processus, nous déterminerons successivement les 
vecteurs 


fa Lu fa La —(8TTs) fa. —(8TTs-s) fs-1s (68) 
les variables aléatoires 
V,=fTX", (69) 
leurs variances 
D,=TKif, (70) 
et les vecteurs 
2 = pe Kofs (71) 


Dans ce cas, les vecteurs f, et x, vérifieront les conditions f1x, — 
= af jp = Ôpg (autrement dit, 8,, = 0 quand 9 p, et bg = 1 
quand g = p) traduisant le fait que les variables V, et V, sont non 
corrélées quand q = p. 
En vertu de (68) on peut récrire les formules (69), (70) et (71) 
sous la forme 
s—i 
VmgT(A— D Vis), Di sTRUE, np KES (72) 


pe! 
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s—{ 


KO=K;—) Dotpt (73) 
| 


est la matrice de variances-covariances du vecteur aléatoire 

si 

X,=X0— 5 V tp. 

Dæ 1 
Les formules (72) et (73) nous permettent de détacher successivement 
du vecteur X° les termes non corrélés V,z,, dont chacun n'est pas 
corrélé avec le reste correspondant X +, (et avec tous les restes succes- 
sifs) sans calculer les vecteurs f,. 

Si le rang de la matrice Æ, est égal à la dimension de l’espace n, 
alors nous obtiendrons ainsi nr vecteurs f,, . .., f, et aucune des 
variables D,, . .., D, ne sera égale à 0. Dans ce cas, la formule (71) 
déterminera n vecteurs Zi, . . ., Zn- 

Si le rang r de la matrice X, est inférieur à la dimension nr de 


ne alors pour un certain p <r + 4 on obtiendra Kfn = 


” &p = 0, D, = 0, et le vecteur x, restera indéterminé. En 
Dareil cas, on peut poursuivre les calculs d’après les formules (68)- 
(72) en adoptant x; — 0. En procédant ainsi, en définitive nous 
trouverons n vecteurs f,, . .., f, et r vecteurs zx, différents de 0. 
En modifiant, en cas de besoin, la numérotation des vecteurs f, et 
Zs) On peut considérer que les vecteurs zx,, ..., x, sont différents 
de 0. Dans ce cas, aux vecteurs f1,. ..,f, Re des variables 
aléatoires non corrélées V, = fT X?, es = fT X° possédant des 
variances différentes de O0 D,, ..., D,, Aa que les variances des 
variables V,4, = fT,,X°, ..., V, = fIX° seront égales à 0. 

Cela fait que les variables V,4,,, . .., V, seront égales à 0 avec 
une probabilité 1 et que les coordonnées du vecteur aléatoire X° 
seront liées par nr —r dépendances linéaires ff4,X° = ... — 
= fIX9 = 0 en conformité complète avec le résultat du point 3.4. 

Considérons maintenant le vecteur aléatoire 


r 
Y — X— 2 V lp. 
p= 


Etant donné que fT X° = V,, fT x, = ôsp (Ss = 1, ..., nr; p — 
= 1,...,r) et que V,4, =... = V, = 0, on aura presque sûre- 
ment, quand r << n, les relations 


fTY = fTX0—V,—=0 (s=1,...,r), 
JTY = fTX0=V,=0 p.s. (s=r+1,...,n). 


Ainsi, les coordonnées du vecteur Ÿ sont liées par r dépendances 
linéaires. En introduisant la matrice F dont les colonnes sont les 
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vecteurs f, 
F = [f, 3 Înls 
on peut écrire ces relations sous la forme 


FTY =0. 


Il est évident que les vecteurs f,, + + +5 fn Sont linéairement indé- 
pendants en vertu de l’indépendance linéaire des vecteurs initiaux 
Els + + «+ En. C’est pourquoi le déterminant de la matrice F ne peut 
être égal à O0. Par conséquent, Ÿ = 0 (presque sûrement dans le cas 
où r<<n). Nous avons ainsi la relation 


X=m, 2 Vote (74) 


Cette égalité est exacte quand r = nr et se trouve vérifiée avec une 
probabilité 1 quand r << n. 

Nous avons ainsi exprimé le vecteur aléatoire À en fonction du 
vecteur aléatoire V dont les coordonnées V,, . .., V, sont non corré- 
lées (et possédant, par conséquent, une matrice de variances-cova- 
riances diagonale). En comparant (74) et (59) et en appliquant la 
formule (60), nous obtenons l'expression correspondante pour la 
matrice de variances-covariances du vecteur aléatoire X: 


K,= >; D,rpt}. (79) 
p=1 


La représentation du vecteur aléatoire X sous forme d'une fonc- 
tion linéaire de variables aléatoires non corrélées (74) est appelée sa 
décomposition canonique. La décomposition correspondante (75) 
est appelée décomposition canonique de la matrice de variances- 
covariances du vecteur aléatoire À. Les vecteurs x,, . .., x, sont 
appelés les vecteurs des coordonnées de la décomposition canonique. 

4.4. Différentes formes de la décomposition canonique. Il dé- 
coule de la non-unicité de la solution du problème de la réduction 
de la matrice de variances-covariances à une forme diagonale (l'ar- 
bitraire du choix des vecteurs initiaux g,,. .., g, linéairement indé- 
pendants) que pour tout vecteur aléatoire possédant un moment fini 
du second ordre il existe une injfinité de décompositions canoniques. 

La décomposition à l’aide des vecteurs propres est l'une des 
décompositions canoniques. Elle est obtenue si en qualité de vecteurs 


initiaux £g1, ..., 8, On prend les vecteurs propres conjugués ®,, ... 

... Pr. Nous avons alors, en vertu de (61) et (62), les relations 
Îp=Pps Vp= PA = Ur, Dp=hp Tp=@Pp (p=1Â,...,n) 

et les formules (74) et (75) prendront alors respectivement la forme 

(66) et (67) (sir << n, alors À,4, = ... = À, = 0, et respectivement 

Lo =... — U, — p.s.). 

8—0244 
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Il est évident qu'en introduisant des facteurs correspondants 
dans les expressions des variables aléatoires V, et des facteurs in- 
verses dans les expressions des vecteurs x,, on peut rendre les varian- 
ces des variables V,, ..., V, égales à n'importe quel nombre fixé à 
l'avance, par exemple les rendre toutes égales à 1 ou faire en sorte 
que tous les vecteurs zx,, . .., x, soient des vecteurs unités. Dans 
ce dernier cas, la somme des variances des variables V,, ..., V., 
sera égale à la somme des variances des coordonnées X,, . .., X, 
du vecteur aléatoire X, autrement dit égale à la trace de sa matrice 
de variances-covariances : 


> D, = >) DX,, — D kpn = tr Kz. 
p=1 h=1 h=1 
En effet, il découle alors dans ce cas de (75) que 


n ñn r r n r 
trke= D kun= D D Dilrml= D Dp D Itprl?= D Dh 
h=1 h=1 p=i p=1 h=1 p=i 


En particulier, pour la décomposition d’après les vecteurs propres, 
on a toujours la relation 


S = à kin=trKe 
P= R= 


(cela découle également du fait " connu que lors d’une transfor- 
mation unitaire la trace d’une matrice n’est pas modifiée). 

4.5. Procédé le plus simple pour obtenir la décomposition canoni- 
que. Les calculs effectués d'après les formules (68)-(72) seront plus 
simples si l’on considère que les vecteurs initiaux g,, . .., g, sont 
les vecteurs unités des axes des coordonnées e,, . .., e,. On a alors 
dans ce cas les relations 


fi = [1 O ... O1, Di = ki Liq — Di'ko (q = 4, ..., n) 


et les formules s (69-72 conduisent alors successivement aux relations 


s—1 
D, = kss— 2 D;lïgsl*; 
qg= 


Zep=0(p=1,...,s—1), z2,,—1, 


s—1 
4 à _ > 
tep= D (kns— À Dotantes ) (p=s+1,...,n), (16) 
q=i 
fsp= —Tns— > Las] ap (p=1,...,s—2), 
qg=p+i 


Je, 81 == — T4, 81 Îs3 = 1; fsp = 90 
(p=s+1,...,n;s—2,...,n). 


8 4] DECOMPOSITIONS CANONIQUES DES VECTEURS 415 


Si D, — 0, alors, conformément ä la méthode générale, nous pose- 
PONS Zyy =... = Ten = Ù. 

Le volume des calculs nécessaires pour trouver la décomposition 
canonique du vecteur aléatoire d’après les formules (76) est des di- 
zaines et parfois même des centaines de fois inférieur au volume des 
calculs indispensables pour trouver les valeurs propres et les vecteurs 
propres du vecteur aléatoire. En outre, il n’est souvent pas néces- 
saire de calculer les vecteurs f,. 

Nous laissons au lecteur le soin de montrer que les formules (76) 
peuvent être obtenues en adoptant en qualité de variable aléatoire 
V, la première coordonnée du vecteur X°, V, = X? et ensuite en 
posant successivement 


XS Fe ZaiV Tasset Lise + Æ 


et en déterminant zsy, . . ., Zs,#-1 de la condition de non-corrélation 


Exemple 15. Les calculs effectués dans les conditions de l'exemple 14 
d'après les formules (76) avec une précision égale aux quatre premiers chiffres 
après la virgule nous conduisent à la décomposition canonique suivante du 
vecteur aléatoire X: 


X=Vil1 0,927 0,814  0,5722  0,3144]7 + 


+V,(0 1 0,7135 —0,6955 —0,3740]7 + 
+V,(0 0 1 0,4464  0,4597]7 + 
+V,[0 0 0 1 —0,2420)7 + V4 [0 O O O 1J7. 


les variances des variables aléatoires V;, ..., V, sont alors 
D;, = 1,9400, Da = 0,2299, D, = 0,3362, D, = 0,4867, D; = 0,7765, 
et les vecteurs f,, ..., f£$ sont donnés par les expressions 
fi=[1 0 0 0 oj7, 
fe=[—0,9278 1 0 0 0], 
fa=1—0,1525 —0,7135 1 0 0]7, 
fa={  0,8991 1,0140 —0,4464 1 0j7, 
fs=[—0,3737  0,9474 —0,5677 (,2420 1]7. 


La vérification effectuée en calculant la matrice K, d'après la formule (75) 
conduit à une matrice coïncidant intégralement avec la matrice initiale K. de 
l'exemple 14 avec une précision portant sur les quatre premiers chiffres aprés la 
virgule. 


4.6. Signification géométrique de la décomposition canonique. 
Remarquons maintenant qu'étant donné que l'équation 
uTK,u = const 
8* 
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représente dans le cas d’une matrice À, à éléments réels l'équation 
d’un ellipsoïde (une ellipse quand nr = 2) en vertu de la non-négativi- 
té de Æ,, le problème de la recherche de la décomposition canonique 
d’un vecteur aléatoire réel est équivalent à un problème géométrique 
de la recherche des directions conjuguées par rapport à l’ellipsoïde 
et de la réduction de son équation à sa forme canonique (dans le 
cas général en coordonnées obliques). Dans le cas particulier où 
l’on adopte en qualité d’axes de coordonnées les axes de l’ellipsoïde, 
nous obtenons un système rectangulaire de coordonnées pour lequel 
l'équation de l’ellipsoïde prend sa forme canonique. À ce système 
de coordonnées correspond la décomposition du vecteur aléatoire 
d'après les vecteurs propres. Cette interprétation géométrique 
montre clairement pourquoi la décomposition d'un vecteur aléatoire 
en ses coordonnées non corrélées est appelée canonique. 

Nous appellerons ellipsoide de dispersion l'ellipsoïde d'équation 
uTKziu — 1 (dans le cas d’une matrice K, à éléments réels). 

4.7. Elaboration d’un vecteur aléatoire correspondant à une 
matrice donnée de variances-covariances. Démontrons maintenant 
l'affirmation du point 3.4 concernant le fait que toute matrice K 
hermitienne définie non négative peut être considérée comme la 
matrice de variances-covariances (et par conséquent le moment du 
second ordre) d’un vecteur aléatoire. 

D Soient À,,..., À, les valeurs propres, @,, . . ., @, les vecteurs 
propres correspondants de la matrice K, U,, ..., U, des variables 
aléatoires non corrélées quelconques d’espérances mathématiques 
nulles et de variances égales respectivement à À, ..., À, *). Consi- 
dérons le vecteur aléatoire 


n 
X = > U,9,. 
p=1 
Sa matrice de variances-covariances est définie par la formule (67). 


Or, comme À,p, = Kw, et que, par conséquent, À,g5 — @5K, il en 
découle que 


nr nr 
K,= 2 À pPpP5 — (2 PpP}) X . 


*) On peut, par exemple, prendre les variables aléatoires U, = l'h + 


+ iU, (p = 1. ..., n) et déterminer la densité de probabilité conjointe des 
variables Uf, U?, ..., Un, Un à l’aide de la formule 

f (ui, ui, ..., Un, Un) = fi (us, ui)... fn (un, un), 
où fi, -.., f, sont des densités de probabilité bidimensionnelles quelconques 
vérifiant les conditions MU, = 0; DU, = hp (P = 1,..., n). Dans le cas où 
la matrice KÆ est de rangr € n, A1 — :-. — Àn = 0 et les variables aléatoi- 
res U,4s. . . … U, sont égales à O0 avec une probabilité 1. Dans ce cas il con- 


vient de poser 


[ph (u”, u”) == Ô (u°) Ô (u”) (p =7r + 1,...,n). 
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Mais nous avons la relation 
se 


n Pi 
> PpPr=[P1... Pal = DO" — J,, 
P=1 * 
Pr 


étant donné qu’en vertu de (62) nous avons 


pi PIPs + Pin 
D'O=| : |fpi... Pile) + à à 444 =], 
Pr _Pr Pi PaPn_ 
et, par conséquent, D* — D-1, Ainsi, À, — Æ, ce qui démontre 
l'affirmation du point 3.4. 4 


$ 5. Autres caractéristiques numériques 
des variables aléatoires 


5.1. Moments d’ordres supérieurs. Dans de nombreux cas, les 
moments du premier et du second ordre ne sont pas suffisants. C’est 
pourquoi, pour obtenir une caractéristique plus complète des varia- 
bles aléatoires, on introduit les moments d'ordres supérieurs. On se 
limite alors habituellement aux variables réelles, ce qui ne conduit 
pas à une perte de généralité (voir la remarque du point 2.1.2). 

On appelle moment d'ordre r (r-ième moment) de la variable aléa- 
toire À l'espérance mathématique de sa r-ième puissance : 


a, = NIXT. (17) 
On appelle moment centré d'ordre r de la variable aléatoire X le 


r-ième moment de la variable aléatoire centrée X° = X — m,. 
correspondante 


un, = M (XY = M(X — my. (18) 


On appelle moments d'ordre r du vecteur aléatoire X les espe- 
rances mathématiques des produits X#1,..., XÂn, correspondant à 
tous les entiers non négatifs k,, ..., k, dont la somme est égale à r: 


un = MAX... Xln, ki+...Lk,=r. (79) 


On appelle moments centrés d'ordre r du vecteur aléatoire X les 
moments d'ordre r correspondant au vecteur aléatoire centré X° — 


Us... 4n = M (XT)H ... (Xn)hn, Ris Re. (80) 
On définit d’une manière analogue les moments relatifs à tout 


point donné. Les moments @ relatifs à l’origine des coordonnées sont 
habituellement appelés moments non centrés. 
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En utilisant la formule du binôme de Newton et les propriétés 
des espérances mathématiques, on peut exprimer les moments non 
centrés en fonction des moments centrés et inversement. En particu- 
lier, nous obtenons pour les moments d’une variable aléatoire sca- 
laire les relations suivantes 


œ, = 2 CPu,mz ?, (81) 
Ur = à (— À Li C'asms ”. (82) 


Il est évident que tous les moments d'ordre Ô sont égaux à 1. 
Le moment du premier ordre de la variable aléatoire scalaire X 
est, par définition, son espérance mathématique &, — m,, et les 
moments du premier ordre du vecteur aléatoire À représentent les 
espérances mathématiques de ses coordonnées. Tous les moments 
centrés du premier ordre sont égaux à 0. Le moment centré du second 
ordre d’une variable aléatoire scalaire À représente sa variance et 
les moments centrés du second ordre du vecteur aléatoire À les 
éléments de sa matrice de variances-convariances. 

Outre les moments du premier et du second ordre, on utilise 
parfois en pratique les moments du troisième et du quatrième ordre. 
On utilise rarement les moments d'ordres supérieurs. 

Le moment centré du troisième ordre caractérise l’asymétrie de 
la distribution par rapport à son espérance mathématique. C'est 
pourquoi on adopte en qualité de caractéristique d’asymétrie de la 
distribution la grandeur sans dimension définie comme le rapport 
du moment centré du troisième ordre au cube de l'erreur quadratique 
moyenne : 


v, = EE =E5 — Es à (83) 


Cette grandeur est appelée coefficient d'asymétrie de la distribution 
de la variable aléatoire. 

Le moment centré du quatrième ordre peut, pour une variance 
donnée, servir à caractériser le poids relatif des grands écarts de 
l'espérance mathématique, ce qui, à son tour, définit le caractère 
du maximum au point m, pour une distribution symétrique, l'allure 
pointue ou étalée de la courbe de distribution. C'est pourquoi on 
adopte en qualité de caractéristique du comportement de la courbe 
de distribution au voisinage du point m, la grandeur sans dimen- 


Sion : 
Ye = y — 3, (8%) 


que l’on appelle aplatissement de la distribution de la variable aléa- 
toire X. Le fait de soustraire 3 au rapport u,/u? sera explicité au 
point 6.1. 
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Exemple 16. On obtient pour Îa distribution y (exemple 2.8) en vertu 
du (2.16) les expressions 
SR l'(r+u+1) 
= —hXx = 
TUE) j= ET Qu) 
(] 


a le cas particulier de la distribution exponentielle (1 = 0), on a @&, = 
= ri/kr. 
Exemple 17. On obtient pour la distribution B (exemple 2.9) les 
expressions 
1 
__ T(p+9) arr: (A z)01 47 = LUHOT (PET) 


TT (PT (p+g+r) 


E xemplo 18. Dans les conditions de l'exemple 2.14, les moments du 
temps S de fonctionnement du système après la première réparation sont défi- 
nis par la formule 


Le lo 
Ar = À sr pete eh (s)] ds = fsrhe-htis-s) ds = 
0 0 


| 
= (AT do (AN (A 


Exemple 19. Dans les conditions de l'exemple 2.16, on obtient l'ex- 
pression 


2! 
are [ur (jtu+a—1+f(b+1—u)] du+(20" ps. 


0 


5.2. Les quantiles. Les moments des variables aléatoires sont 
commodes quand tous les moments nécessaires (pratiquement jusqu'à 
l'ordre 4) existent. Toutefois, comme le montre l'exemple 6, une 
variable aléatoire peut ne pas posséder de moments. C’est pourquoi 
on introduit parfois pour les variables aléatoires scalaires d'autres 
caractéristiques numériques liées aux valeurs de la fonction de ré- 
partition. 

En qualité de caractéristique de position de la distribution sur 
l'axe numérique (valeur moyenne), on adopte le point Ci», où la 
fonction de répartition passe des valeurs inférieures à 1/2 aux valeurs 
supérieures à 4/2: 


F (Eye) < 1/2, FF (Giys + 0) > 1/2. 


Ce point Gi. est appelé la médiane de la variable aléatoire. La 
médiane existe toujours et peut même être déterminée non univoque- 
ment. En effet, la fonction de répartition varie de façon monotone de 
0 à 1. C'est pourquoi on peut toujours trouver un point £17, où elle 
passe soit continüment soit en réalisant un saut par la valeur 1/2. 
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S'il existe un intervalle (œ, B) où F (x) = 1/2, alors tout point de 
cet intervalle peut servir de valeur pour la médiane. 

Pour caractériser la dispersion des valeurs d’une variable aléa- 
toire, on utilise les points où la fonction de répartition passe par 
d’autres valeurs. Le point &,, où la fonction de répartition passe des 
valeurs inférieures à p aux valeurs supérieures à p, p € (0,1): F (bn) < 
< Pp, F(Ër + 0) > p, est appelé quantile d'ordre p. Toutes les 
quantiles existent pour n'importe quelle variable aléatoire scalaire 
et certaines d'entre elles peuvent être déterminées de façon non 
univoque. Cela se démontre exactement de la même façon que 
l'existence de la médiane. 

On utilise le plus souvent, outre la médiane &,,,, les quantiles 
Cry et Gsx que l'on appelle les quartiles. Dans ce cas, la grandeur 

— (Ë37 — Cix)/2 est adoptée en qualité de caractéristique de la 
dispersion des valeurs de la variable aléatoire et est appelée écart 
médian, ou écart probable, ou étendue semi-interquartile de la distri- 
bution de la variable aléatoire. On utilise parfois les quantiles 
Cor Go.er + - +» Goo que l’on appelle les déciles. 

On voit aisément qu’à l’aide des quantiles on peut caractériser 
la distribution avec un degré arbitraire de précision, si l’on en choisit 
un nombre suffisamment grand. 

Le défaut des quantiles réside dans le fait qu'il n'existe pas pour 
elles de formules simples du type (52) pour passer des variables aléa- 
toires à des fonctions linéaires de ces variables aléatoires, en parti- 
culier à leurs sommes. 


$ 6. Lois normales unidimensionnelles 


6.1. Moments. Etudions maintenant la distribution normale sur 
l’axe numérique (exemple 2.6). Cette distribution est définie par la 
densité de probabilité 


__ c(x—-a)s 


Ja=y Le , c>0. (85) 


On a représenté sur la fig. 15 la densité de probabilité de la loi 
normale. On remarque à l’aide de la formule (85) que cette courbe 
est symétrique par rapport au point a où la densité de probabilité 
atteint son maximum. Le coefficient de la fonction exponentielle 
est déterminé de la condition d'égalité à 1 de l’intégrale de la densité 
de probabilité étendue à tout l’axe numérique. 

Pour établir l'expression de ce coefficient, désignons-le par la 
lettre À. Nous obtenons alors 


= 1 


A | De gel 
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À l'aide de la transformation x = a + t V 2/c, on ramène l'intégrale 
du premier membre à l'intégrale bien connue de Poisson : 


On obtient alors, en prenant en considération le fait que 
(annexe 2) 

le-tat=Vr, (86) 
l'expression de À 

A=V c/2r . 


Il découle directement de 
la symétrie de la densité de 
probabilité d’une loi normale 


par rapport au point zx — a 0 a + 
que l'espérance mathématique | 
de Ja variable aléatoire X Fig. 15 


suivant une loi normale est 

égale au paramètre a figurant dans l'expression de la densité de 
probabilité, m, — a. Le calcul formel de m. d’après la formule (3) 
nous conduit au même résultat : 


O0 1 ; y» 
€ tn -n 
My — V = re dx = 
Ge 27 | né 


L = fera = Juvat-e 


en vertu de la formule (86) et de l'égalité à 0 de la dernière intégrale, 
comme intégrale d’une fonction impaire étendue à des limites symé- 
triques par rapport à l’origine des coordonnées. 

Ainsi, le paramètre a figurant dans l'expression (85) d'une densité 
de probabilité unidimensionnelle normale représente l'espérance mathe- 
matique d'une variable aléatoire. 

Les moments centrés d’une variable aléatoire À normalement 
distribuée sont définis conformément à (78) et (6) par la formule 


c “ se u(x-a)2 
Ur — 97 | (x—a)'e 2 dx — 
— 00 
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On constate ainsi que tous les moments centrés impairs d’une variable 
aléatoire normalement distribuée sont nuls. Pour les moments centrés 
pairs, nous obtenons l'expression 


met (2) areas 2 (2) fees (7 


—œ 


En intégrant par parties, nous trouvons 


C 


Hip — = (+)? Ï 12P-1e-t? dt? — = (+)? [ — 12P-16"t?] Lo + 


œ $ 

2p—1 [2)\pP on 2p—1 

+ (Teresa EE par 
0 


Nous obtenons ainsi une formule récurrente 


2p—1 
Hep — I M2p-2- (88) 


En posant ici p — 1 et en tenant compte de ce que tous les moments 
d'ordre Ô sont égaux à 1, nous trouvons la variance d'une variable 
aléatoire À normalement distribuée : 


D, = le = 14e. 


Ainsi, le paramètre c figurant dans l'expression (85) de la densité 
de probabilité normale représente une grandeur inversement proportion- 
nelle à la variance de la variable aléatoire c — D;' = u1'. 

Pour obtenir une formule générale pour les moments centrés 
pairs, récrivons l'expression (88) sous la forme 


Mep = (2P — Î) Uehap-e. 


En posant ici successivement p = 2, 3, ..., k et en multipliant 
terme à terme les égalités obtenues, nous obtenons, après simplifica- 
tion, l'expression 


don = 143... + (2k — 1) à = (24 — 1)! (89) 


Cette formule exprime tous les moments centrés pairs d'une variable 
aléatoire À normalement distribuée en fonction de sa variance 
D, = p En particulier, quand 4 = 2, la formule (89) définit le 
moment centré du quatrième ordre u, = 3u°. En portant cette 
expression dans (84), nous vérifions le fait que l'aplatissement de la 
loi normale est égal à 0. 

La distribution normale est largement répandue dans la nature. 
Dans la majorité des problèmes pratiques, on peut considérer que la 
loi de distribution de la variable aléatoire concernée est normale. 
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C'est pourquoi, habituellement, on adopte la loi normale comme un 
étalon pour comparer des distributions. Les coefficients d’asymétrie 
et d'aplatissement sont introduits pour caractériser l’écart d’une 
distribution par rapport à la loi normale. C’est pourquoi on les défi- 
nit de telle manière que pour la loi normale ils soient égaux à 0. 
C'est ce qui explique l’introduction du terme —3 dans la définition 
(84) de l’aplatissement. 

En tenant compte des expressions a = m,, c = D;! — 65°, la 
formule (85) pour la densité de probabilité d’une loi normale unidi- 
mensionnelle est souvent écrite sous la forme 


; - Er ; 1 ( x-m ) 

2 2 (0) 
(D TE" (90) 
où, pour des raisons de concision, on élude les indices de l’espérance 
mathématique m — m,, de la variance D = D, et de l'écart quadra- 
tique moyen (l'écart-type) o = ©. 

La formule (90) montre que /a distribution normale est entièrement 
déterminée par les moments du premier et du second ordre. En connaïis- 
sant l’espérance mathématique et la variance d’une variable aléatoire 
normalement distribuée, on peut trouver sa densité de probabilité. 

6.2. Probabilité d’appartenance à un intervalle. Nous allons 
maintenant établir la formule donnant la probabilité d'appartenance 
d’une variable aléatoire À normalement distribuée à un intervalle 
donné (œ, f). 

En portant l'expression (90) de la densité de probabilité dans la 
formule générale (2.10), nous obtenons, pour la probabilité d'appar- 
tenance à un intervalle, l'expression 


Pa<X<h=—— | e 


Après avoir effectué la transformation de variables x — m “+ oz, 
z = (zx — m)/o, nous obtenons l'expression 


B- 


Le 4 
P(LX<P) = ( e-:°/2 dz — 


a 
B-m œ- 


Ce) 
= 1 [ e-2°/2 dz — : 
0 


V 2x V 2x 


L'intégrale indéfinie de la fonction e-**/2 ne s'exprime pas à l’aide 
des fonctions élémentaires. C'est pourquoi, pour calculer les intégra- 


m 
(e] 
| e-2°/2 dz. 
0 
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les figurant dans la formule précédente, on introduit une nouvelle 
fonction 
u 
D(u)=—— | e-r ds. (91) 


V 27 


Pour cette fonction, appelée fonction de Laplace, on a élaboré des 
tables (annexe 3, table 1) *). A l’aide de la fonction de Laplace, la 
formule précédente pour la probabilité d'appartenance d’une variable 
aléatoire normalement distribuée à un intervalle (&œ, B) peut être 
mise sous la forme 


Pa<x<h-0(n)-o (Sn), 


Cette formule montre d’une manière explicite que les paramètres m 
et © représentent bien respectivement l’espérance mathématique m, 
et l'écart quadratique moyen ©, de la variable aléatoire À **). 

Démontrons maintenant que la fonction de Laplace est impaire. 
En substituant dans (91) u à —u, nous obtenons 


1 t. a 
—s EE ————————— 22/2 
D(—u)— 7 e dz. 


Effectuons maintenant la transformation de variables z — —s;: 
nous avons l'expression 
u 
D) {e-#/2 as — O(u), 
V'2x û 


qui démontre que la fonction ® (u) est impaire. Cela fait que dans 
les tables on ne présente les valeurs de cette fonction que pour les 
valeurs positives de u. 

6.3. Cas d’un intervalle symétrique. Dans le cas particulier où 
l'intervalle (œ, B) est symétrique par rapport à l’espérance mathéma- 
tique, & — m, — €, B — m, + e, la formule (92) donne 

€ 


P(m,—e<X<m;+ e)=P(IX—mLI<e) = (7) (-=). 


Ox 


*) Dans ce qui suit, quand nous ferons des rappels relatifs aux tables, 
nous aurons toujours en vue les tables rapportées dans l'annexe 3. 

**) Dans différents manuels, la fonction de Laplace est définie de diffé- 
rentes façons. Les diverses définitions différent par le choix de telle ou telle 
échelle de l'argument, l'échelle de la fonction elle-même et les limites de l’in- 
tégrale. En pareil cas, les formules donnant la probabilité d'appartenance à 
un intervalle sont modifiées en conséquence. 
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Nous en tirons alors, en prenant en considération le fait que la 
fonction ® (u) est impaire, l'expression 


P(IX—ma|<e) = 20 (=). (93) 
Ox 
Exemple 20. En posant successivement dans la formule (93) e = ©,» 


20. 30,4, 404 et en utilisant la table de la fonction de Laplace (annexe 3, ta- 
ble 1), nous trouvons 


PIX —-m,| <o,) = 20 (1) = 0,683 = 0,68, 
PIX — m,.]<20,) = 20 (2) = 0,954 & 0,95, 
PIX —m,|< 30,) = 20 (3) = 0,997, 

P(IX — m,l< 40,) = 20 (4) = 0,999994. 


On peut ainsi affirmer avec une probabilité d'environ 68 % que les valeurs 
d'une variable aléatoire normalement distribuée ne s’écartent de son espérance 
mathématique que de moins d’un écart-type. avec une probabilité de 95 % de 
moins de deux écarts-types ct avec une probabilité de 99,7 % de moins de trois 
écarts-types. 

Nous voyons qu'une variable aléatoire normalement distribuée ne peut 
qu'avec une probabilité de 0,3 % s'écarter de son espérance mathématique de 
plus de trois écarts-types. En d'autres termes, en moyenne ce n'est que dans 
trois épreuves sur mille que son écart à l'espérance mathématique sera supé- 
ricur à 30... C'est pourquoi on considère habituellement que le domaine des 
valeurs pratiquement possibles d'une variable aléatoire normalement distri- 
buée cest l'intervalle (m, — 30,, mx + 30,). 


En posant dans (92) & — —, f — x et en prenant en considé- 


ration le fait que O (oo) = >, nous trouvons la fonction de répar- 


9 

tition d’une variable aléatoire normalement distribuée : 
=p(2="%:)\., 17°) 

F(a)=® _. ]++ ?. (94) 

6.4. Quantiles. Il découle directement de la symétrie de la 

distribution normale, que la médiane coïncide avec l’espérance 

mathématique STE — M; — a el que Ci/e . Cia = Gap — LISTE = 

— ÆE,, où E, désigne l'écart médian de la variable X. Pour détermi- 

ner l’écart-médian Æ,, il suffit de poser dans la formule (94) x — 

= Cyyx = Mzx + E, et d'égaler l'expression obtenue à 3/4. Nous 


obtenons alors l'expression © ÊE )=+. La racine de cette 
x 


équation est notée p VW 2(0—0,4769...) Nous avons ainsi l'expres- 
Ês —=p V2, d'où nous tirons l'écart médian: 
LE « 


E,=p V 20, & 0,674 0... 


*) Pour calculer la fonction de répartition normale et la densité de proba- 
bilité, on dispose dans [94] du programme NDTR. A l'aide de ce programme, on 
peut calculer sur ordinateur la probabilité d'appartenance d'une variable 
aléatoiré normalement distribuée à un intervalle quelconque. 


sion 


CHAPITRE 4 


PROJECTIONS DES VECTEURS ALÉATOIRES 
ET LEURS DISTRIBUTIONS 


$ 1. Distributions des projections 
d’un vecteur aléatoire 


1.1. Projections d’un vecteur. Tout vecteur z = {x1, ..., zw} 
dans l’espace à V-dimensions peut être univoquement représenté 


sous la forme 
N 


T= > The; (1) 
k=1 


où €,,..., en Sont les vecteurs unitaires des axes des coordonnées, 
€y = €1,0,...,0}, es — {0,1,0,...,0},...,ex = {0,...,0,1}. 


Dans l’ensemble des N vecteurs e,, . . ., e, choisissons nr quel- 
conques d'entre eux, disons Ein ser Ernr TL Te Lee LTns 
n <Z N. On appelle alors sous-espace engendré par les vecteurs Erre.e 

. + €r, l’ensemble de tous les vecteurs x de l’espace à N-dimensions, 
dont seules les coordonnées Tres Ær, SONt différentes de 0, et les 
autres sont nulles. Deux sous-espaces dont l’un est formé par nr 
vecteurs quelconques choisis parmi les e,, ..., ex et l’autre est 
formé par les Ÿ — n vecteurs restants sont dits respectivement complé- 
mentaires. Par exemple, le sous-espace engendré par les vecteurs 
€. - . ., €, et le sous-cespace engendré par les vecteurs e,41,...,€ex 


sont mutuellement complémentaires. 
On appelle projection du vecteur x dans le sous-espace engendré 


par les vecteurs Er - + + Cr, le vecteur x’ obtenu à partir de x en 
remplaçant toutes ses coordonnées, excepté Traces Zrys Par des 
zéros : 
< 
r à 


En particulier la projection du vecteur x sur le k-ième axe de coor- 
donnée (un sous-espace à une dimension engendré par le vecteur e;) 
est le vecteur z,e,. La projection du vecteur zx sur le k-ième axe de 
coordonnées étant entièrement définie par un seul nombre zx,, nous 
ne ferons plus, dans ce qui suit, de distinction entre la projection du 
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vecteur sur un axe et sa coordonnée correspondante, évidemment si 
cela n’entraîne pas de confusion. 


Soient 54, . .., Sx-n les entiers restants disposés dans l’ordre 
croissant, 8 << ...< Sy-n, que l’on obtient en excluant de l’en- 
semble {1,..., V} les nombres r4, ...,r,. Le vecteur x’ défini par 
la formule (2) et le vecteur 

Ne 
zx" = > Ta,es, (3) 


h=1 


sont les projections du vecteur x sur deux sous-espaces mutuellement 
complémentaires. La somme de ces deux projections est égale au 
vecteur x, zx’. x” — x, étant donné que la somme (3) contient tous 
les termes de la somme (1), qui ne figurent pas dans la somme (2), 
et ne contient aucun terme de la somme (2). 

Si X est un vecteur aléatoire à N dimensions, alors sa projection 
sur le sous-espace engendré par les vecteurs unitaires e,, ..., €, 


représente un vecteur aléatoire à nr dimensions et sa projection sur le 
sous-espace complémentaire est un vecteur aléatoire à (M — n) 
dimensions. 

Etant donné qu'en modifiant la numérotation des vecteurs 
ex, - - ., en (c'est-à-dire leur ordre) on peut toujours faire en sorte que 
n quelconques d’entre eux deviennent les premiers, nous considére- 
rons toujours dans ce qui suit, dans le cas de la projection d'un vec- 
teur à V dimensions sur un sous-espace à z dimensions, que ce sous- 
espace est formé par les vecteurs unitaires e,, . .., e,. Dans ce cas, 
le sous-espace complémentaire sera engendré par les vecteurs unitaires 
En+1r + + -, en. Par ailleurs, pour simplifier les notations, nous pose- 
rons Ÿ = n + m et nous désignerons le vecteur à (7 + m) dimen- 
sions par la lettre z, et ses projections sur le sous-espace à r7 dimensions 
et le sous-espace complémentaire à m dimensions respectivement par 
les lettres x et y. En d'autres termes, nous poserons 2, = zx;,, . 
da = Die Ulis mr ann et (Ti 300), 
Y = {Yi + Ym}- 

1.2. Fonction de répartition de la projection d’un vecteur aléa- 
toire. Supposons que l’on connaisse la fonction de répartition Æ (x, y) 
d'un vecteur aléatoire Z à deux dimensions, dont les coordonnées 
(les projections sur les axes de coordonnées) sont X, Y, et que l'on 
se pose le problème de déterminer la distribution des variables aléa- 
toires X et Ÿ considérées séparément. 

> En vertu de la définition (2.29) et de la convention du point 
2.2.1 relative à l'écriture des inégalités entre vecteurs, nous avons 


l'expression | 
F (x, y) = P(KX < 2} Y < y}). (à) 


Pour trouver la fonction de répartition F, (x) de la variable aléatoire 
X, il suffit de remarquer que la vérification de l'inégalité X << x 
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est équivalente à la vérification simultanée de cette inégalité et de 
l'inégalité certaine Ÿ << co. C’est pourquoi nous avons la relation 


F, (2) = P(X< zx) = P({X < x} {Y < oœ}). (5) 
En comparant cette formule à (4), on constate que 
F, (zx) = F (zx, co). (6) 


La fonction de répartition F, (y) de la variable aléatoire Y est 
définie exactement de la même façon: 


Fa (y) = F(o, y). (7) 


Ainsi, pour trouver la fonction de répartition de l'une des coordon- 
nées d’un vecteur aléatoire à deux dimensions, il convient de remplacer 
la variable correspondant à l'autre coordonnée par oo. 

1.3. Densité de probabilité de la projection d’un vecteur aléatoire. 
Trouvons maintenant la densité de probabilité de la variable aléa- 
toire X. 

> En appliquant pour le calcul de la probabilité dans (5) la 
formule (2.9) et en modifiant la notation de la variable d'intégration 
z en u, nous obtenons l'expression 


F; (x) = | du Î fu, y) dy = | {[rtu y) dy} du. 


En comparant cette formule à (2.30), nous obtenons la formule sui- 
vante pour la densité de probabilité de la variable aléatoire X: 


o0 


ACEREICOLE @ 


— 00 


Nous obtenons exactement de la même façon la formule correspondan- 
te pour la densité de probabilité f, (y) de la variable aléatoire Y : 


f@)= | f(x y) dr. (9) 


Ainsi, pour trouver la densité de probabilité de l’une des coordonnées 
d'un vecteur aléatoire à deux dimensions, il convient d'intégrer sa 
densité de probabilité sur la variable correspondant à l’autre coordonnée. 

Les formules (6)-(9) sont valables également dans le cas où X 
et Y représentent des vecteurs aléatoires quelconques. Si X repré- 
sente un vecteur aléatoire à r dimensions de coordonnées X,,..., X, 
et Ÿ un vecteur aléatoire à m dimensions de coordonnées Ÿ,,...,Ÿ M; 
alors f (x, y) est la densité de probabilité du vecteur aléatoire à 
(nr + m) dimensions de coordonnées X,, ..., X,, Ÿ,, ..., Ÿ m: 
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c'est-à-dire la densité de probabilité conjointe des nr + m variables 
aléatoires X,, ..., Xn, Yy, + «+ Y me L'intégration par rapport à la 
variable y dans (8) doit alors être comprise comme une intégrale 
m-uple par rapport aux coordonnées du vecteur y et l'intégration par 
rapport à x dans (9) comme une intégrale n-uple par rapport aux 
coordonnées du vecteur x. 

Ainsi, les formules (6)-(9) définissent les distributions des pro- 
jections de tout vecteur aléatoire sur les sous-espaces mutuellement 
complémentaires. 

D La formule (8) permet de démontrer l'affirmation faite au 
point 3.1.3 suivant laquelle l'espérance mathématique de la pro- 
jection d’un vecteur aléatoire (en particulier d’une coordonnée) 
peut être calculée d’après la formule (3.3), en considérant cette 
projection comme une fonction du vecteur aléatoire. En effet, en 
considérant la variable X comme une fonction du vecteur aléatoire 
{X, Y}, nous obtenons, d’après la formule (3.3), l'expression 


Mix = [ [ zf (x, y) dx dy — | z4s [ f (2, y) dy, 


ou, en vertu de (8), l'expression 
C0 


Mr = { zf1 (x) dx. 


Nous obtenons les mêmes expressions à l’aide de la formule (3.6). < 


Exemple 1. La densité de probabilité d'un vecteur aléatoire normal 
bidimensionnel est définie par la formule (2.22) de l'exemple 2.11 quand on 
pose n = 2: 


Venêes— de exp {—: [11 (x — a) + 


Î{ (zx, y)= 
2618 (220) (0— 0) +6 (u— 0}. (40) 


Pour définir la densité de probabilité de la projection de ce vecteur aléatoire 
sur l'axe z, portons l'expression (10) dans (8): 


1 ‘ co : 
eo antente TEE Loup {ent —o— 


— ci (2— 0) (y—0)} dy= 


net 1 00 +4 ” Cie 
_ Vencie—cie Pa Cys(x —a)t | ; 2 t: Va, (x Li” 
2n V Cp é | 
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En utilisant pour calculer l'intégrale la formule (annexe 2) suivante: 
1 


es nt- 2 rs — n? 
E + dt=V2r e” à (11) 


nous obtenons l'expression 


n 
| CyaCas— Co 


TE 5 EE (x - a) 
hG)= y fee e 2 Gr : (12) 


2TCo0 


En comparant cette formule à (3.90), nous voyons que la projection X du vecteur 
aléatoire bidimensionnel normalement distribué {X, Y} sur l'axe x suit une loi 
normale, que son espérance mathématique est égale à a, m, = a, et que sa va- 
riance est définie par la formule 


c 
- C11C 29 — Cêe (3) 


Nous pouvons alors conclure, pour des raisons de symétrie, que la projection Y 
du vecteur {X, Y} sur l'axe y suit une loi normale, que son espérance mathé- 
matique est égale à b, m,, — b, et que sa variance est définie par la formule 


ce A 
— D =! (14) 
D C11C12— C2 


Calculons encore la covariance entre les variables X et Y. En introduisant 
pour des raisons de concision les notations x —m,=17—a—=u,y—m, — 
= y — b = v, nous trouvons, à partir de la formule (3.22), l'expression 


oo © |! | 
FR A 22 — (Cuau?+2CiauU+C3202) 
by= ue | | uve ? u dv= 
a. — 00 — 00 
PE , CO 1 k oo Cie | 
= t—— 1: 
V'c1122—c? TT uu Va 2 
= anges | ue © du | te Csa dt. 
22 2 ne 


En appliquant au calcul de l'intégrale par rapport à t la formule 


que l'on établit aisément en dérivant Ja formule (11) par rapport au paramètré 
n, nous obtenons l'expression 


es © , 1 CysC as — Cho ... _- 

Cie pe Créer Cfa Ù TD ce. 

k . _— em sms AE 2e Cre … : .. 
4 Cas 2702 g : 


On sait que cette dernière intégrale, munie de la racine carrée qui figure devant 
elle, représente, conformément à (3.16) et (12), la variance D, de la variable X 
qui .est définie par la formule (13). Nous avons par conséquent l'expression 


Gta 


Fa C11C28 — Co : GS) 
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Les formules (13)-(15) montrent que la matrice de variances-covariances d’un 
vecteur aléatoire bidimensionnel normalement distribué et la matrice C des 
coefficients de la forme quadratique dans l'expression (10) de la densité de 
probabilité sont des matrices respectivement inverses. Au point 4.2 nous avons 
vu que cela était vrai également pour un vecteur aléatoire de dimension quel- 
conque. 

Exemple 2. Nous proposons au lecteur de trouver la densité de pro- 
babilité de la projection d’un vecteur aléatoire à n dimensions normalement 
distribué sur le sous-espace à (7 — 1) dimensions engendré par n — 4 axes quel- 
conques de coordonnées. 

Exemple 3. Montrer que si un vecteur bidimensionnel suit une loi 
uniforme dans un rectangle (exemple 2.10), alors sa projection suit également 
une loi uniforme sur la projection correspondante de ce rectangle. Généraliser 
ce résultat à des vecteurs uniformément distribués sur des parallélépipèdes dans 
des espaces finis quelconques. 

E xcomple 4. Pour un vecteur aléatoire uniformément distribué à 
l’intérieur d une ellipse (exemple 2.10), nous obtenons de la formule (8) l’ex- 
pression 


bV/1-Z 
a ns 
dy 2 z® 
f\(x)= mo = na V 1-25, fhi)=0 pour Ir|l>a. 
_b i-— 
a 


Dans ce cas, bien que le vecteur aléatoire soit uniformément distribué sur le 
plan, ses coordonnées ne sont pas uniformément distribuées. Cela est très com- 
préhensible: pour chacune des valeurs x, la probabilité d'appartenir à un inter- 
valle infiniment petit de longueur Az est proportionnelle à la corde de l’ellipse 


0 
Fig. 16 Fig. 17 


passant par le point r et PEER CIeUAUe à l’axe x (fig. 16). Par conséquent, la 
densité de probabilité de la variable aléatoire X est aussi proportionnelle à la 
longueur de cette corde. C’est pourquoi il est clair que la courbe représentant la 
densité de probabilité de la variable aléatoire X sur l'intervalle (—a, a) est 
une demi-ellipse (fig. 17). | | 

Nous proposons au lecteur de vérifier lui-même que la formule obtenue 
définit la distribution de la projection du vecteur aléatoire sur l'axe z dans le 
cas plus complexe d'un vecteur uniformément distribué à l’intérieur d'une ellip- 
se dont les axes ne coïncident pas avec les axes de coordonnées (exemple 3.9). 
M également dans ce cas la distribution de la’ projection du vecteur sur 

axe y. 


ge 
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Exemple 5. Considérons le cas où la variable aléatoire Y est une fonc- 
tion déterminée de la variable aléatoire X, Y — œ(X). Dans ce cas, comme 
nous l'avons montré au point 2.3.4, la densité de probabilité conjointe des 
variables aléatoires X et Ÿ est définie par la formule 


f(x, y) = € (œ) 8 (y — @ (x). 


En portant cette expression dans (8), nous trouvons la densité de probabilité 
de la variable aléatoire X : 


he | #66 ptdr (0: 


0 


Cette formule démontre l'affirmation énoncée au point 2.3.4 relative au fait 
que le facteur g (x) représente la densité de probabilité de la variable aléatoire 
X. Cela est vrai aussi bien dans le cas des variables X et Y scalaires que dans 
le cas des variables vectorielles. 

Nous trouvons alors exactement de la même façon, à partir de la formule (9), 
la densité de probabilité de la variable aléatoire Y: 


hU= | 664-967. 


Pour calculer cette intégrale, il convient de partager le domaine où g (x) Æ 0 
én intervalles où la fonction p (x) est monotone et dans chacun de ces intervalles 
d'effectuer le changement de variables n = œ (x); il reste alors à effectuer l'in- 
tégration par Fppor à n en utilisant la définition de l'intégrale d'une fonction 
6 (formule (5) de l'annexe 1). Nous effectuerons ici ce calcul pour le cas particu- 
lier de l'exemple 3.10, pour lequel @ (x) = z°, g (x) — (4/2a) 1 (a — | zx |). 
Nous avons alors dans ce cas < 


AUS ( sua [| 6 (y— 2°) de + ow-sya] 
CA 


—a« 


En effectuant le changement de variables n = r°, nous obtiendrons dans la 


première intégrale z = —V 1, et dans la scconde x — + Y 1. Nous avons alors 
en définitive 


1 * dn 1 
| =— | np) = = —": 1 (at — y). 
ADS | 7 pe 0 


Ainsi, les deux coordonnées du vecteur aléatoire sont, dans ce cas, des variables 
aléatoires continues, bien que sa densité de probabilité contient un facteur sous 
forme d’une fonction 6. Cela illustre la remarque faite au point 2.3.4. 
Exemple 6. Dans le cas d’une distribution dégénérée dans l'espace à 
n dimensions, en portant l'expression (2.28) de la densité de probabilité dans (8) 
et en remplaçant z et y respectivement par z’ et x”, nous trouvons la densité de 
probabilité du vecteur aléatoire X” (les projections du vecteur. X dans le sous- 
espace engendré par les m vecteurs quelconques parmi les vecteurs unitaires 


€t» + Em è 


ACER ETC ee CL T1) 
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$ 2. Distributions conditionnelles des projections 
d’un vecteur aléatoire 


2.1. Densité de probabilité conditionnelle de la projection d’un 
vecteur aléatoire. Dans les problèmes pratiques, où l’on a affaire 
aux vecteurs aléatoires, on doit souvent déterminer la distribution 
de certaines coordonnées d’un vecteur aléatoire quand les valeurs 
des autres coordonnées sont connues; c'est ce que l’on appelle les 
distributions conditionnelles. Nous rencontrons ce problème, par 
exemple, quand nous sommes intéressés par une variable aléatoire X 
que l’on ne peut pas observer directement, alors que l’on peut obser- 
ver une autre variable aléatoire Ÿ. Par exemple, quand nous effec- 
tuons une opération de mesure, nous n'observons pas la variable X à 
mesurer elle-même, mais simplement le résultat de la mesure Ÿ, 
représentant la somme de la variable à mesurer et de l'erreur de 
mesure. En pareil cas, après avoir déterminé expérimentalement la 
valeur y de la variable aléatoire Ÿ, on doit rechercher la distribution 
conditionnelle correspondante de la variable aléatoire X. La princi- 
pale difficulté pour trouver ce genre de distribution conditionnelle 
réside dans le fait que l’événement B de la forme Ÿ = y par rapport 
auquel nous voulons déterminer les probabilités conditionnelles a une 
probabilité nulle, alors que la définition (1. 16) de la probabilité 
conditionnelle n'est applicable qu'au cas où P (B) Æ 0. 

Considérons tout d’abord un vecteur aléatoire bidimensionnel 
continu de densité de probabilité f (x, y). Dans ce cas, P (Y = y) — 
= (0. C'est pourquoi la formule (1.16) ne permet pas de déterminer 
les probabilités conditionnelles des événements sous la condition 
Ÿ = y. Par ailleurs, il est intuitivement clair que la densité de 
probabilité conditionnelle de la variable aléatoire X, pour une 
valeur donnée de y, existe et qu’elle est proportionnelle à la densité 
de probabilité f (x, y) pour une valeur fixée de y (la courbe de distri- 
bution conditionnelle de la variable aléatoire X pour une valeur 
donnée de y est représentée dans une certaine échelle par la section 
correspondante de la surface de distribution z = f (x, y)). Ces consi- 
dérations, compte tenu de la propriété (2.11) de la densité de proba- 
bilité et de la formule (9), nous conduisent à l’expression suivante de 
la densité de probabilité conditionnelle de la variable aléatoire À 
pour une valeur donnée y de la variable aléatoire Y : 


hGy= LE, (16) 


Nous trouvons de façon analogue la densité de probabilité condition- 
nelle de la variable aléatoire Ÿ pour une valeur donnée x de la 
variable aléatoire X: 


1 y) = 
fe (y|x) = FACE (x) e (11) 
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> Pour donner une définition rigoureuse de la distribution 
conditionnelle d’une coordonnée d’un vecteur aléatoire pour une 
valeur donnée de l’autre, nous trouverons tout d’abord la distribu- 
tion conditionnelle de la variable aléatoire X par rapport à l’événe- 
ment y, < Ÿ << y, ayant une probabilité différente de 0. Nous trou- 
M en vertu de la formule (1.16) la fonction de répartition condition- 
nelle : 


P ({X < Y < y: 
Fu = P(X <a EY < y) = RIM ETS 


En appliquant, pour le calcul des probabilités, les formules (2.9) 
et (2.10), nous obtenons 


x v 
\ du D fu, v) du 


Ep va ©) = > — Ta . (18) 
\ fa (v) du 
Vi 
En posant maintenant y, = y, y = y + Ay, nous définirons 


la distribution conditionnelle de la ul aléatoire X pour une valeur 
donnée y de la variable aléatoire Y, ayant une probabilité nulle comme 
la limite de la distribution conditionnelle de X par rapport à l’évé- 
nement y < Ÿ << y + Ay quand Ay —+ 0. 

>> Pour | effectuer le passage à la limite, écrivons la formule (18) 
sous la forme suivante : 


7] x 
( du | f(u,v)du 
Fig va (2) = HE ——— (19) 
\ fa (v) du 
V1 


Si l'intégrale 
| f(u, v) du 


pour tout x et la fonction f, (v) sont des fonctions continues de v 
au point vu = y, alors elles sont également continues dans un certain 
voisinage du point y. C’est pourquoi en posant y, = y, ya = y + Ay 
on peut appliquer, pour un Ay suffisamment petit, aux intégrales 
(19) le théorème de la valeur moyenne. Nous obtenons alors l’expres- 
sion 


Ÿ fu, n) du 
Fy,u+av = — ; n, n'E(y, y + Ay). 


S2 DISTRIBUTIONS CONDITIONNELLES DES PROJECTIONS 1435 


Etant donné que n, n° — y quand.Ay —+ 0, alors le second membre 
de l'égalité obtenue tend vers une limite déterminée quand Ay —+ 0, 
si fo (y) Æ 0. Par conséquent, dans ce cas la limite du premier mem- 
bre existe également ; elle représente par définition la fonction de 
répartition conditionnelle F, (x | y) de la variable aléatoire X pour 
une valeur donnée y de la variable Ÿ. Nous obtenons ainsi 


Î fu, y) du 
Fi (x1y) = lim Fvu+ay (x) — pu + (20) 


En comparant le second membre à l'expression (2.30) de la fonction 
de répartition à l’aide de la densité de probabilité, nous obtenons la 
formule (16) pour la densité de probabilité conditionnelle f, (x | y) 
de la variable aléatoire X quand Y = y. 

Nous avons ainsi démontré que pour toutes les valeurs de y pour 
lesquelles f,.(y) et l'intégrale dans (20) pour tout x sont des fonctions 
continues de y et f: (y) Æ 0, la densité de probabilité conditionnelle de 
la variable aléatoire X pour une valeur donnée y de la variable aléatoire 
Y est définie par la formule (16). Quand f, (y) = 0 la distribution 
conditionnelle de la variable aléatoire X quand Y = y reste inde- 
terminée (n'existe pas). 

Remarquons que les conditions pour lesquelles la formule (20) 
a été établie peuvent être vérifiées également dans le cas où f (x, y) 
comporte des fonctions & (exemples 5 et G). 

> Pour déterminer la distribution conditionnelle de la variable 
aléatoire X pour une valeur y, de la variable Ÿ, possédant une pro- 
babilité p, différente de 0, remarquons que l'événement Y = y, 
(l'appartenance à la droite y — y,) ne peut avoir une probabilité 
différente de O que dans le cas où f(x, y) contient un terme de la 
forme g, (x) Ô (y — y,). En posant dans (19) y, = y,, Yes = ys+ Ay, 
nous aurons pour tout Ay > 0 


Ÿ gs (u) du+-0 (Ay) 


Fu = on — 
En passant à la limite quand Ay —+ 0, nous obtenons pour la fonction 


de répartition conditionnelle F, (x | y,) et la densité de probabilité 
conditionnelle f, (x | y;) les formules 


Fely)=+ [ed f@ay)=e(@ (C1 


Ces formules sont valables également dans le cas où g, (x) contient 
une combinaison linéaire de fonctions Ô. < 
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Il est clair que tous nos raisonnements sont valables également 
dans le cas où X et Ÿ sont des vecteurs aléatoires. C’est pourquoi les 
formules (16) et (21) définissent la distribution conditionnelle de la 
projection d’un vecteur aléatoire sur n'importe quel sous-espace 
pour une valeur donnée de sa projection dans le sous-espace complé- 
mentaire. 


Exemple 7. Dans les conditions de l'exemple 1, nous trouvons, en 
portant dans (16) l'expression (10) de la densité de probabilité f (r, y) et une 
expression analogue à (12) pour la densité de probabilité fs (y), la densité de 
probabilité conditionnelle de la projection d'un vecteur aléatoire bidimension- 
nel normalement distribué sur l'axe z pour une valeur donnée de sa projection 
sur l’axe y: 

rs RS [s-a+<# (y-b)] 


hey=y 6° k (22) 


En comparant cette formule avec (3.90), nous voyons que la distribution condi- 
tionnelle de la variable aléatoire X pour une valeur donnée y de la variable Y 
est normale, et que son espérance mathématique et sa variance sont respective- 
mert égales à 


C9 | 
a——<*(y—b) et —, 
Ci11 C1 


Par un raisonnement symétrique, nous pouvons conclure que la distribution 
conditionnelle de la variable Y pour une valeur donnée z de la variable X est 
ponts et que son espérance mathématique et sa variance sont respectivement. 
gales à 


D ot 
Coe C22 


Exemple 8. Trouver, en utilisant les résultats de l'exemple 2, la 
distribution conditionnelle de l’une des coordonnées d'un vecteur aléatoire à nr 
dimensions normalement distribué pour des valeurs données de toutes les autres 
coordonnées (c’est-à-dire pour une valeur donnée de la projection du vecteur 
aléatoire sur le sous-espace à (7 — 1) dimensions engendré par tous les autres 
axes de coordonnées). 

Exemple 9. Dans les conditions de l’exemple 4, nous avons 


AGDE 1 (a V1 1a ] 


Ainsi, la distribution conditionnelle de la variable aléatoire X dans ce cas est 
uniforme dans l'intervalle | z | << aW 1 — y?/b?, dont la longueur dépend de y. 
Nous avons vu dans l’exemple 4 que la distribution non conditionnelle de fa 
variable aléatoire X dans ce cas n'était pas uniforme. 

Le lecteur peut aisément vérifier que dans le cas plus compliqué de l’exem- 
ple 3.9 les distributions conditionnelles des projections du vecteur aléatoire 
sont uniformes sur les intervalles correspondants. 

Exemple 10. Dans les conditions de l'exemple 5, il est évident que la 
distribution conditionnelle de la variable aléatoire Y pour une valeur donnée x 
de la variable aléatoire X est définie par la densité de probabilité 


fe 12) = 8 (y — q ()). 
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En effet, pour une valeur donnée x, la variable aléatoire Y prend, avec une pro- 
babilité 1. la valeur possible unique @ (x). La formule (17) et le résultat de l’exem- 
ple 5 conduisent à la même conclusion. En particulier, elle est valable dans le 
cas de la distribution dégénérée (2.27) ou (2.28). 


2.2. Théorème du produit des densités de probabilités. Les formu- 
les (16) et. (17) peuvent être mises sous la forme 


JC y) = fi (@) fe 12) = fe Q) ñ @& l'y). (23) 


Cette formule exprime le théorème du produit des densités de proba- 
bilité: la densité de probabilité conjointe de deux variables aléatoires 
(scalaires ou vectorielles) est égale à la densité de l'une d’entre elles 
multipliée par la densité de probabilité conditionnelle de l'autre. 

> Remarquons que la formule (23) est vraie également dans le 
cas où f, (x), ou f: (y), ou les deux ensembles contiennent des fonc- 
tions ô. En effet, si, par exemple, nous avons 


N 
fo (y) = ho (y) + à Ps (y —yYs); 
alors 


N 
fe QU) fa (a 1Y)= ke) fi] p+ 5 Psfa(t\ys) 8 (y—ys). (24) 


Dans la somme, nous avons remplacé f, (x | y) par la fonction f, (x | y.) 
du fait que œ (y) Ô (y — y.) =  (ys) Ô (y — y.) pour toute fonction 
(y), étant donné que Ô (y — y.) = Ô pour tous les y  y,. Comme 
pour tous les y Æ y,, . .., yn les sommes dans les deux dernières 
formules sont égales à 0 et que, par conséquent, f, (y) = h2 (y), alors, 
en vertu de (16), le second membre de la formule (24) est égal à 
Ï (x, y) pour tous les y Æ y,, . .., yn. Par ailleurs, la somme dans 
(24) représente, en vertu de (21), précisément la combinaison linéaire 
des fonctions ô, que l’on doit introduire dans la fonction f (x, y), 
pour tenir compte du fait que les probabilités p,, . . ., p\, des valeurs 
Yy» + - +, Yn de la variable aléatoire Y sont différentes de O.Ainsi, 
le second membre de la formule (24) coïncide avec f (x, y) pour tous 
les x et y. 4 

2.3. Variables aléatoires dépendantes et indépendantes. Les varia- 
bles aléatoires X et Y sont dites indépendantes si les événements 
X EAetY € B sont indépendants pour tous les ensembles À et B, 
pour lesquels les probabilités correspondantes sont définies. Les 
variables aléatoires X et Y sont dites dépendantes s’il existe des 
ensembles À et B pour lesquels les événements X € 4 et Y € B sont 
dépendants. Ces définitions se rapportent aussi bien aux variables 
aléatoires scalaires que vectorielles. 

[1 découle de ces définitions et des conditions d'indépendance des 
événements du paragraphe 1.6 que les variables aléatoires X etY 
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sont indépendantes si et seulement si aucune information relative à 
l'une d'elles ne modifie la distribution de l’autre. 

> Si les variables aléatoires X et Y sont indépendantes, alors, 
conformément à la définition, les événements X << x et Y < y 
sont indépendants pour tous les x et y. Par conséquent, en vertu du 
théorème du produit des probabilités des événements indépendants, 
nous avons 


P{X<H{Y<y) = P(X<DPY<Y, 
ou encore 
Finn =) F4. € (5) 


Ainsi, la fonction de répartition conjointe des variables aléatoires inde- 
pendantes est égale au produit de leurs fonctions de répartition. 

> En vertu des relations (2.32) et (2.31) entre les fonctions de 
répartition et les densités de probabilité, il découle de (25) que 


Î (z, y) = 1 (x) 2 (y) (26) 


(dans le cas des vecteurs aléatoires X et Ÿ, pour obtenir la relation 
(26), il convient de dériver la formule (25) une fois par rapport à 
chacune des coordonnées du vecteur z et par rapport à chacune des 
coordonnées du vecteur y). 
Ainsi, chacune des conditions (25) et (26) est nécessaire à l'in- 
dépendance des variables aléatoires À et Y. 

> Montrons que (26) est aussi une condition suffisante. Pour 
cela, calculons la probabilité de l'intersection des événements 
X E A et Y € B en supposant que la condition (26) soit vérifiée. 
En portant l’expression (26) dans la formule (2.9), nous obtenons *) 


P({XEA}{YEB})=P((X, Y)EAXB)— 
== NE y) dx dy = | az | fa (2) fa (y) dy — 


AXB A B 


= [fit dz | j2 (y) dy, 
À B 
ou, en vertu de (2.9), 
P({XEA}{Y EB}) =P(XEA)P(YEB) 
pour tous les À et B. Il en découle que les événements X € À et 
Ÿ € B sont indépendants pour tous les À et B si (26) est vérifiée, 


ce qui démontre le fait que la condition (26) est suffisante pour l’in- 
dépendance des variables aléatoires X et Y. La condition (25)est, 


*) Le prsion A X B représente le produit direct des ensembles À et B, 
c'est-à-dire l'ensemble des couples ordonnés {x, y} tels que r € A, yEe B. 
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elle aussi, évidemment suffisante étant donné que de (25) découle 
également la formule (26). <« 

Ainsi, chacune des conditions (25) et (26) est nécessaire et suffisante 
pour l'indépendance des variables aléatoires X et Y. 

‘En comparant (26) à (23), nous pouvons conclure que, pour l’indé- 
pendance des variables aléatoires X et Y, les conditions 


hGly=h() fiY1x)= f: (4) (27) 


sont nécessaires et suffisantes. 

Il est évident que ces deux conditions sont nécessaires mais il 
suffit que l’une d'elles soit vérifiée, étant donné qu'en vertu de 
(23) chacune des identités (27) est la conséquence de l’autre. 


Exemple 11. Dans les exemples 1 et 7, les variables aléatoires X et Y 
sont dépendantes si c12 0, et indépendantes si c,: — 0. 11 découle de (15) que 
les variables aléatoires X et Y sont corrélées si c;, 5 0, et non corrélées si c12 = 
— 0. Ainsi, les coordonnées d’un vecteur aléatoire bidimensionnel normalement 
distribué sont dépendantes si elles sont corrélées et indépendantes si elles sont 
non corrélées. . 

Exemple 12. Dans l'exemple 3, les projections du vecteur aléatoire 
sont indépendantes. | 

Exemple 13. Dans les exemples 4 et 9, les projections du vecteur alé- 
atoire sont Dénendantes. bien que, comme nous l'avons vu dans l'exemple 3.8, 
elles soient non corrélées. Dans le cas plus compliqué de l'exemple 3.9, les 
projections du vecteur aléatoire sont dépendantes et en même temps corrélées. 

Exemple 14. Dans l'exemple 5, les projections du vecteur aléatoire X 
et Y sont dépendantes. Cela découle de la comparaison formelle de f, (y) et de 
fs (y | x) obtenues dans les exemples 5 et. 40. Dans ce cas, X et Y sont en géne- 
ral corrélées. Dans certains cas particuliers, elles peuvent être également non 
corrélées. Ainsi, dans l'exemple 3.10 et dans le cas plus général des fonctions 

aires g (x) et p (x), les variables aléatoires X et Y ne sont pas corrélées. Dans 
e cas où g (x) est pair et œ (x) est impair, les variables X et Y sont corrélécs. 


Les variables aléatoires X,, ..., X, sont dites indépendantes si 
les événements X} € À, (4 = 1,...,n) sont indépendants pour tous 
les ensembles À,, . .., 4, pour lesquels sont définies les probabilités 
correspondantes. Les variables aléatoires X,, ..., X, sont dites 
dépendantes s’il existe des ensembles À4,, ..., À, pour lesquels les 
événements Xx € Ax (4 = 1, ..., n) sont dépendants. Ces défini- 
tions se rapportent aussi bien aux variables scalaires qu'aux grandeurs 
vectorielles X;, ..., X. 

De même que dans le cas de deux variables aléatoires, il découle 
de cette définition que pour l'indépendance des variables X;,,..., Xh 
il est nécessatre et suffisant que leur fonction de répartition conjointe 
(leur densité de probabilité, si elle existe) soit égale au produit de leurs 
fonctions de répartition (respectivement, de leurs densités de probabilité). 

L'indépendance deux à deux des variables aléatoires X,, ..., Xh 
est nécessaire mais n'est pas suffisante pour que ces variables soient 
indépendantes. 
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Exemple 15. Soient X, et X. des variables aléatoires indépendantes 
dont chacune d'elles prend deux valeurs possibles, 0 et 1, avec les probabilités 
1/2, Xs = X3X9 + (1 — X1) (1 — X2). La variable aléatoire X, prend égale- 
ment deux valeurs possibles, 0 et 1, dont les probabilités sont égales à 1/2, étant 
ponné que P(X3 = 0) = P(X, = 0) P(X2:=1)+ P(X1 = 1) P(X, = 0) = 
= 4/2, P(X3=1)=1—P(X4—= 0) = 1/2. Les variables X;,, X,. et X, sont 
deux à deux indépendantes étant donné que 


P(X1=0, X3—0)= P(X1—=0)P(X:—=1)=+—P(X,—0) P(X3=0), 


P(X1=0, Xs3=1)=P(X,=0) P(X:—=0)=+—P(X,=0) P(X,—=1), 


P(X1=1, Xa=0)=P(X1=1) P(X:=0)=+—P(X,=1)P(X3=0), 


I 
Df= fe nm 


P(X,=1, Xa=1)= P (Xi 1) P(Xe= == P (Xa= 1) P (Xs= 1) 


Des égalités analogues sont valables pour X,, X,. Toutefois, nous avons la 
relation 


P(X1—=0, Xa=0, X3=0)=0%P(X,=0)P(X:=0)P(X; = 0). 


Par conséquent, les variables aléatoires X,, X, et X. sont dépendantes. 

Exemple 16. Le vecteur aléatoire tridimensionnel X = {X;,, Xe, X3) 
uniformément distribué sur la surface d’un tétraèdre dont les sommets sont 
aux points (0, O, 0), (0, 1, 1), (1, 0, 1), (14, 1, 0), a pour densité de probabilité 
l'expression 


f@=+ Leo, 19 (21) 160, 19 (Te) 160, 19 (Z8) LÔ (T1 + T2 — Ts) + 
Hô (r1+zs—7oe) +6 (To trs —11)+ô (r1+ re + T3 —2)], 


Où 140.1) (x) est la variable indicatrice de l'intervalle (0. 1). Toute coordonnée de 
ce vecteur est uniformément distribuée dans l'intervalle (0, 1) et sa projection 
sur tout plan de coordonnées est distribuée uniformément dans le Gate (0, 1) X 
X (0, 4) = (0, 1)°. Par conséquent, les variables X,. X, et X, sont deux à deux 
indépendantes. Toutefois, elles sont dépendantes car, dans le cas contraire, la 
distribution du vecteur X serait uniforme dans le cube (0, 1}. 

Exemple 17. La densité de probabilité du vecteur aléatoire X à n 
dimensions est définie par la formule 


f (2) = fi (m1) + + + fn En) + 8 (@), 


où f1 (x), - . ., fn (x) sont des densités de probabilité quelconques (comportant 
peut-être une combinaison linéaire de fonctions 6) et g (r) est une fonction quel- 
conque vérifiant les conditions: 


1) 18 (&)1< f1 (ri) +. fn (Zn) pour tous les 7;,..., Zn; 
2) | g (x) drr —0 pour tous les x;, ik (k=1,..., n). 


Par exemple, la fonction 
g (x) = 81 (1) + + En (Æn)s 


où g (x), - .., £&, (x) sont des fonctions impaires quelconques dont les modu- 
les, pour tous les x, sont inférieurs aux fonctions correspondantes f, (x), .. . 


Lu 
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... fn @) vérifiant ces conditions. En intégrant la densité de probabilité 
{ (x) sur l'une quelconque de ces coordonnées, on vérifie que tout groupe de 
n — À coordonnées du vecteur X est indépendant et que f4 (z,) est la densité 
de probabilité de la coordonnée X} (k = 1, ..., n). Toutefois, les r coordon- 
nées du vecteur X sont dépendantes si g (x) & 0. 

On peut rapporter de nombreux exemples de ce genre. En particulier, le 
dernier exemple que nous avons cité peut être aisément étendu aux variables 
vectorielles X,, ..., X,. 


2.4. Les variables indépendantes sont non corrélées. Démontrons 
que les variables aléatoires indépendantes sont toujours non corrélées. 

D En portant l'expression (26) de la densité de probabilité 
conjointe des variables aléatoires indépendantes X et Ÿ dans la 
formule (3.22) pour la covariance, nous obtenons 


key À À (—m,) (y—m,) f(x) f: (y) dr ay = 
cs | (z—m) f1 (x) dx | (y —m,) fo (y) dy. 
Or, nous savons que 
À (my) fa) dy= À vie) du—m, | fe (dy =0. 


Par conséquent, #,, — 0, ce qui démontre notre affirmation. < 

Les exemples 11-14 montrent que les variables aléatoires dépen- 
dantes peuvent être non corrélées mais peuvent être également corré- 
lées. 

2.5. Indépendance des fonctions des variables aléatoires indépen- 
dantes. Démontrons que si les variables aléatoires X,, . .., X, sont 
indépendantes, alors toutes fonctions arbitraires de ces variables Y ,—= 
= Pi (Xi), +, Yan = Pn (Ân) sont indépendantes. 

> Nous avons en effet dans ce cas les expressions 


P=— a {Pa (Xx) € Ba} = 


= Î SE | fa (ta) +. fn (Zn) dt... dr, = 
Pi(x1)EB: Pn(xn)EBn 


Il | fn (zx) den = [T P (qu (X5) € B:) 
k=1 


k=1 çh (à) Bp 


pour tous les ensembles B,,..., B, dans les espaces correspondants. 
2.6. Théorème du produit des espérances mathématiques. On 
a établi au point 3.2.4 la formule (3.30) reliant l'espérance mathé- 
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matique, la covariance et le moment non centré mixte d’ordre deux 
de deux variables aléatoires. Dans le cas des variables aléatoires 
réelles X et Y, cette formule est de la forme 


Vu = Rey + MaMy: 


Il en découle que si les variables aléatoires X et Y ne sont pas corré- 
lées (k,, = 0), alors Y,, = m,m,, ou encore 


MXY = MX-MY. (28) 


Ainsi, l'espérance mathématique du produit de deux variables aléatoires 
réelles non corrélées est égale au produit de leurs espérances mathéma- 
tiques. Ce théorème relatif au produit des espérances mathématiques 
est valable en particulier pour les variables aléatoires indépendantes, 
étant donné que les variables aléatoires indépendantes sont toujours 
non corrélées, comme nous l'avons montré au point 2.4. 

Il est naturel de vouloir étendre ce théorème à un nombre arbi- 
traire de termes. Toutefois, pour cela, la non-corrélation et même 
l'indépendance deux à deux des variables aléatoires ne sont plus 
suffisantes. 


Exemple 18. Dans les conditions de l'exemple 15, les variables alé- 
atoires X,, X. et X., sont deux à deux indépendantes et, par conséquent, sont 
non corrélées. Leur produit a deux valeurs possibles, (… et 1, et cela de sorte que 
la valour 1 n'est réalisée que pour X, — X, == 1 avec une probabilité 1/4. Par 
conséquent, nous avons MX1X2X3 — 1/4. Or nous savons, par ailleurs, que 
MX, = MXe= MXs= 1/2 et MX,-MX2-MX3 = 1/8. Par conséquent, le 
théorème du produit des espérances mathématiques dans le cas présent n est 
pas valable. 


> Si les variables aléatoires X,, . .., X, sont indépendantes, 
alors pour toutes les fonctions @, (X:), . . ., @n (X,) nous avons : 


Mi (X 1) Pa (X 2) + +. Pn (Xn) = | . | Pi (ti) Pa (Ze) : 


+++ Pn (Zn) fa (24) f2 (2) +. fn (En) dt... dun = 


= À qu (rs) fa () dus | Ga (22) fa (2) due … 


ee À qu (an) f (en) den = Moi (A1) Me (Xe) 2 Mn (An) 


et cela de sorte que l’espérance mathématique du premiér membre 
existe si, et seulement si, toutes les espérances mathématiques du 
second membre existent. 
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Ainsi, si les variables aléatoires X,, . .., X, sont indépendantes, 
alors l'espérance mathématique du produit de n fonctions arbitraires de 
ces variables aléatoires, dont chacune ne dépend que de l’une des variables 


X1,..., Xh, est égale au produit des espérances mathématiques de ces 
jonctions : 


Ms (X 1) Pa (Xo) + + + Pn (Xn) = 
— Moi (X1) Mpe (X 2) + + + Mn (Xn). (29) 


Ce théorème est valable aussi bien pour les variables aléatoires sca- 
laires que vectorielles X4,, . .., X, et de même pour les fonctions 
arbitraires à valeurs complexes Diese On 

Dans le cas particulier des variables aléatoires réelles X,,..., X, 
on peut poser qu (X1) = X1, ..., ®, (X,) = X, et on obtient alors 
le théorème généralisé du produit des espérances mathématiques 
étendu à un nombre quelconque de variables aléatoires : l'espérance 
mathématique du produit des variables aléatoires réelles indépendantes 
est égale au produit de leurs espérances mathématiques. 

Une variable aléatoire complexe pouvant être considérée comme 
une fonction d’un vecteur aléatoire bidimensionnel dont les coor- 
données sont les parties réelle et imaginaire de cette variable, il 
découle de (29) que le théorème du produit des espérances mathéma- 
tiques est valable également pour les variables aléatoires complexes 
indépendantes. 


Exemple 19. Montrer que le théorème du produit des espérances mathé- 
matiques est Palable pour les variables aléatoires réelles X,, ..., X, si tous 
leurs moments centrés mixtes jusqu’à l'ordre n inclus sont égaux à 0. 


$ 3. Caractéristiques numériques conditionnelles 


3.1. Espérance mathématique conditionnelle. Toutes les caracté- 
ristiques numériques introduites au chapitre 3 peuvent être définies 
également pour les distributions conditionnelles. 

Il. découle en particulier de la formule (3.3) la définition de 
l'espérance. mathématique conditionnelle d’une fonction donnée q (Y) 


de la variable aléatoire Ÿ pour une valeur donnée x de la variable 
aléatoire X: 


MM Ia= | WI à, (80) 


où f: (y | x) désigne la densité de probabilité conditionnelle de la 
variable aléatoire Ÿ pour une valeur donnée x de la variable aléa- 
toire X. Cette formule définit l'espérance mathématique conditionnel- 
le tant pour Île cas des variables aléatoires scalaires, que pour le cas 
des variables aléatoires vectorielles X, Yet Z = o (Y). 
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Un cas particulier de la formule (30) nous donne la formule de 
l'espérance mathématique conditionnelle de la variable aléatoire Y 
pour une valeur donnée z de la variable aléatoire X : 


O0 


MY 1d= | yfi(yl x dy. (81) 


—oœo 


3.2. La régression. La notation f, (y | x) est utilisée pour la 
densité de probabilité de la variable aléatoire Ÿ dépendant du para- 
mètre x dans le cas, également, où x n’est pas la valeur d’une certaine 
variable aléatoire X. Les formules (30) et (31) définissent alors dans 
ce cas les espérances mathématiques des variables Ÿ et œ (Y) en 
tant que fonctions du paramètre zx 

L’espérance mathématique de la variable aléatoire Ÿ en tant que 
fonction du paramètre x, dont dépend la distribution de Ÿ, est appe- 
lée la régression de Y sur x. Dans le cas particulier, où le paramètre x 
représente la valeur possible d’une certaine variable aléatoire X, 
la régression de Ÿ sur x représente l’espérance mathématique con- 
ditionnelle de la variable aléatoire Ÿ quand X = x. 

Le graphe de la fonction y — M [Y | x] dans le cas où z et Y 
sont scalaires est appelé courbe de régression de Y sur x. 

Si le paramètre x représente une valeur de la variable aléatoire 
X, alors, outre la régression de Ÿ sur x, on peut définir également la 
régression de X sur y. 

Après avoir défini l'espérance mathématique conditionnelle, on 
peut également définir tous les moments conditionnels des variables 
aléatoires. Il est clair que toutes les caractéristiques conditionnelles 
des variables aléatoires pour une valeur donnée z de la variable 
aléatoire X sont dans le cas général des fonctions déterminées de zx. 
C'est pourquoi on peut les considérer, avant l'épreuve, comme des 
fonctions de la variable aléatoire X. Dans ce cas, elles seront elles- 
mêmes des variables aléatoires. 

L’espérance mathématique conditionnelle de la variable aléatoire 
Z = œ (Y), considérée comme une fonction de la variable aléatoire À, 
M Iœ (Y) | X], est appelée espérance mathématique conditionnelle de 
la variable aléatoire Z = (®) par rapport à X. 

Etant donné que les espérances mathématiques conditionnelles 
et les autres moments conditionnels des variables aléatoires par 
rapport à la variable aléatoire X sont eux-mêmes des variables aléa- 
toires, on peut également, pour eux, définir des caractéristiques 
numériques, en particulier leurs espérances mathématiques et leurs 
moments. 


Exemple 20. Dans les exemples 3.9, 4 et 9, nous avions 


1 ARE 
= ur — = 
ROSE pour ly—erl< ]/ 1 £ 
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et fe (y | x) = O0 pour toutes les autres valeurs de y. C'est pourquoi nous pou- 
vons écrire 


cx+b vi -x!/at 
1 


PO pire 


y dy= cz. 
cx-b V1-xt/at 


Ainsi, l'espérance mathématique conditionnelle de Y pour X = x est égale dans 
ce cas à cr. 

La variance conditionnelle de la variable Y quand X = z est définie, con- 
formément au résultat de l'exemple 3.3, par la formule 


b° 


DFI = 


(a — r°). 


Nous proposons au lecteur de démontrer que dans ce cas nous avons 


a?c° 
M CAE cree y. 


Exemple 21. Dans le cas d'une distribution normale bidimensionnelle 
(exemples 1 et 7), l'espérance mathématique conditionnelle et la variance con- 
us de la variable aléatoire Y, quand X -= x, sont définies par les for- 
mules : 


MIYIel=b— (ra), D(YIr]= 
Co2 Cas 


Ainsi, l'équation de la courbe de régression de Y sur r admet dans ce cas la for- 
me suivante: 


De façon analogue, nous trouvons l’équation de la courbe de régression de X 
sur y: 
z—a— 12 (y—b). 
C11 


On voit aisément que la courbe de régression de Y sur x représente le diamètre 
de l’ellipse de dispersion, conjugué à la direction de l'axe y, et la courbe de 
régression de X sur y le diamètre conjugué à la direction de l'axe x. 


3.3. Formule de l’espérance mathématique totale. Etablissons 
maintenant l’une des formules fréquemment utilisée en théorie des 
probabilités. 

> On peut écrire, en appliquant la formule (3.3) pour le calcul 
de l'espérance mathématique de la fonction œ (X, Ÿ) du vecteur 
aléatoire {X, Y}, l'expression 


Mo(X, Y)= | | ot y)f(e, 'érdy, (82) 


10—0244 
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où f (x, y) est la densité de probabilité du vecteur aléatoire {X, Y}. 
En portant ici l'expression de f (x, y) tirée de (23): 


Î (x, y) = }1 (x) Îa (y | x), 


nous obtenons 


O0 


Mo(X, Y)= | { [ot y) fa (y | ©) dy } fi (x) dx. 


20 _ 


Or, l'intégrale figurant entre les accolades représente l'espérance 
mathématique conditionnelle de la variable aléatoire œ (x, Y) pour 
une valeur donnée x de la variable aléatoire X : 


co 


| PU Dhs dy Mlp(e Y)la. 


0 
Par conséquent, on peut écrire la formule précédente sous la forme 


Mo(X, Y)= | Mip(e, Y)1z21f1(a) dx. (33) 


0 


Le second membre de cette égalité représente l'espérance mathéma- 
tique de la fonction 


b(X) = Mlp(X, Y) | XI 
de la variable aléatoire X. Nous avons par conséquent 
Mo (X, Y) = MIM [œe (X, Ÿ) | XI. « (34) 


Cette formule est appelée formule de l'espérance mathématique totale. 
Elle montre que, lors du calcul de l’espérance mathématique d’une 
fonction de deux variables aléatoires, on peut d’abord trouver l'espé- 
rance mathématique conditionnelle de cette fonction pour une valeur 
fixée de l’une des variables-arguments et ensuite trouver l'espérance 
mathématique de cette espérance mathématique conditionnelle 
considérée comme une fonction de cette variable aléatoire. 

La. formule (34) est valable tant pour les variables aléatoires X 
et Ÿ scalaires que vectorielles. Dans ce dernier cas, toutes les inté- 
grales dans les formules précédentes doivent être interprétées comme 
des intégrales multiples étendues aux espaces correspondants. 

La formule (34) est valable également pour les variables aléa- 
toires complexes (y compris vectorielles) X et Y. Pour s’en con- 
vaincre, il suffit d’interpréter f, (x) et f, (y | x) dans les raisonne- 
ments précédents comme les densités de probabilité des vecteurs 
aléatoires composés des parties réelles et imaginaires des variables 
X et Ÿ (ou de toutes leurs coordonnées). 
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Dans le cas particulier où q (X, Ÿ) = YŸ la formule (34) conduit 
à l'expression 
| MY = MIM IF | XI]. (35) 


Ainsi, l'espérance mathématique de l'espérance mathématique con- 

ditionnelle de la variable aléatoire Y par rapport à X est égale à l’espé- 

rance mathématique non conditionnelle de la variable aléatoire Y. 

Dans le cas particulier d'une variable aléatoire X discrète, en 

portant dans (33) l'expression (2. 23) de la densité de probabilité 
Î, (x), nous obtenons 

N 
Moœ(X, Y)=— > PrM {Y | xs]. (36) 


Exemple 22. Le nombre d'instruments parvenant au cours de la jour- 
née à un atelier de réparation représente une variable aléatoire distribuée sui- 
vant une loi de Poisson avec une espérance mathématique La probabilité 
qu'un instrument apporté nécessite une grande réparation est ale à à p. Trouver 
l'espérance mathématique du nombre d'instruments apportés à l'atelier en un 
jour nécessitant une grande ré aration. 

Pour une valeur donnée » d'instruments apportés à l'atelier au cours de la 
journée, le nombre d'instruments nécessitant une grande réparation représente 
une variable aléatoire distribuée suivant une loi binomiale. C'est pourquoi, 
conformément au résultat de l’exemple 3.1, nous avons 


MIYIrl=np (n—0,1,2,...). 


La probabilité qu’au cours de la journée soient apportés r instruments est dé= 
finie, conformément à (1.46), par la formule 


p' hu 
Press (n=0, 1,2,...). 


En portant les expressions obtenues des probabilités et des espérances mathé 
matiques con ditionnelles dans la formule (36), nous obtenons la relation 


TUE PnM TR, Ée-tp= 


n=! 


n— 
n=i 


$ 4. Loi normale multidimensionnelle 


4.1. Espérance mathématique d’un vecteur normalement distribué. 
Etudions maintenant la distribution normale des vecteurs aléa- 
toires. Ecrivons, conformément à (2. 22), l'expression de la densité 
de probabilité d’un vecteur aléatoire Fa an dimensions normalement 
distribué sous la forme 


3 L (x T—aT)C(x_0) 


fa)= Aie. 2. Ut, (37) 


10% 
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Les résultats de l'étude des distributions normales unidimensionnelle 
et bidimensionnelle au point 3.6.1 et aux exemples 1 et 7 nous inci- 
tent à penser que le paramètre a dans (37) représente l'espérance 
mathématique du vecteur aléatoire À, a — m, — MX, la matrice 
des coefficients C de la forme quadratique dans l’exposant est l’in- 
verse de la matrice de variances-covariances Æ, du vecteur X et le 
coefficient À, de la fonction exponentielle est défini par la formule 


A = Le 1 (38) 
' C2) VI KA; I 


Comme cela est vrai pour rz = 1 et n — 2, alors la démonstration 
de cette affirmation dans le cas général peut être conduite le plus 
simplement par une méthode de récurrence. Supposons que cette 
affirmation soit vraie pour un vecteur à (7 — 1) dimensions et 
démontrons que dans ce cas elle est vraie également pour un vecteur 
à n dimensions. 

D Supposons que X” soit un vecteur aléatoire formé des n — 1 
coordonnées du vecteur À, À” = {X,,..., X,_.}. Mettons la densité 
de probabilité f (x), conformément à (23), sous la forme du produit 
de la densité de probabilité f, (x’) du vecteur X” et de la densité de 
probabilité conditionnelle de la dernière coordonnée X, du vecteur 


f () = fi (2) fa (en | 2). (3) 


Il suffit pour cela de décomposer jf (x) en deux facteurs dont l’un 
ne dépend pas de x, et dont l’autre donne une constante ne dépen- 
dant pas de x” quand on intègre sur x, dans les limites infinies. Dans 
<e cas, en choisissant de façon adéquate les facteurs numériques dans 
.ces deux fonctions, nous obtiendrons le résultat recherché. 

Isolons dans l’exposant de l'expression (37) tous les termes qui 
dépendent de zx,. À cet effet, posons, pour des raisons de concision, 
U = x — a et représentons la matrice des coefficients C sous forme 
d’une matrice par blocs: 


Ci,n-1 C2,n-1 --+ Cn-1, ne Cn=i,n 
Cin Con se. Cn-i,n Cnn — 
où C; est la matrice des coefficients de u,us (p,qg—=1,...,n — 1) 


et c la matrice-colonne des coefficients de u,u, (p = 1,...,n — 1). 
Exactement de la même façon, nous partagerons la matrice-colonne w 
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en deux blocs u’ et u,, uT = [u’T u,]. Nous obtenons alors 


Ci C u” 
uTCu={[u'T al] à : IF |- 


ie Cu” + cu, ‘TÇu' T e 
=uU U = U u u ‘Cu 
[ n] CTu" + Cunün Î T n 


+u,cTu’+c,,ui =u'TCiu' + 2u,cTu’ + c,,ui, 


étant donné que u’Tc — cTu” *). En complétant les deux derniers 
termes jusqu’à obtention d'une expression au carré et en utilisant à 
nouveau l'égalité cTu’ = u'Te, nous obtenons l'expression 

cTu' 


em [ta 4 (É 


T T,,' 
, mr CC c'u’ \2 
: (cTu’)}2= u'TCiu’ —uT = "+ Cnn (Un+ : | : 
nn nn nn 


En introduisant pour des raisons de concision la matrice 


T 
C' = C; on _. ’ (40) 
nous pouvons écrire l'égalité obtenue sous la forme 
, eTu' \2 
uTCu=uTC'u’ +c,, (u +- ) (41) 
Cnn 


En portant cette expression dans (37) et en nous rappelant que u = 
= x — a et respectivement u’ — x’ — a’, nous obtenons 


f (x) = An exp { + (z'T— aT) C” (x’ — a')} X 


(z’ —a)]. (42) 


L'intégrale de cette seconde fonction exponentielle sur x, dans des 
limites infinies ne dépend pas de zx’, ce que l’on peut vérifier en 
adoptant en qualité de variable d'intégration l'expression entre 
crochets au lieu de z,. Par conséquent, cette fonction exponentielle 
est proportionnelle à la densité conditionnelle f, (x, | x’) de la varia- 
ble aléatoire À, pour une valeur donnée x’ de la variable X”’. En 
comparant cette fonction exponentielle à l'expression (3.85) d’une 
densité de probabilité normale unidimensionnelle, nous obtenons 


? Cnn ; 1 eT / ’ 2 
pes 1e= een ( sine + een f}. 
(43) 
*) Le lecteur peu familiarisé avec l'appareil des matrices partitionnées en 


blocs pourra vérifier aisément le bien-fondé de cette égalité en la mettant sous 
une forme scalaire. 


eT 
Cnn 


1 
X EXP {cu EE + 
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Le facteur restant dans (42) représente la densité de probabilité du 
vecteur aléatoire ZX: 


f1(z') = Ah V = exp {+ (zT—aT)C'(z — a) } . (44) 


I1 découle de (41) que la matrice C’ est définie positive de sorte que, 
pour tout vecteur u’ et u, — — (cTu')/c,,, nous avons u'TC'u' — 
= uTCu >>0. Par conséquent, la distribution du vecteur X”’ est 
normale. Et comme par hypothèse notre affirmation est vérifiée 
pour une distribution normale à (2 — 1) dimensions. nous obtenons 


- RECRUE 
An-1 on Ah 4 énn = VE I I KS l , (45) 
C'Ke=T, (6) 


où À. désigne la matrice de variances-covariances du vecteur aléa- 
toire ZX’ et a’ — MX" ou, ce qui revient au même, 


Gp = Mp = MX, (p=1,...,n —1). 


Ainsi, les grandeurs 4a;, ..., a,-, sont égales aux espérances 
mathématiques m,, ..., m,_, des variables aléatoires X,,..., X,_1. 
En vertu de la symétrie de l'expression de la densité de probabilité 
(37) par rapport aux variables x,, ..., x,, nous concluons que la 
quantité a, est égale à l'espérance mathématique m, de la variable 
aléatoire X,. C'est pourquoi a = MX, ce qui démontre la première 
partie de l'affirmation concernant la distribution à nr dimensions. 

4.2. Matrice de variances-covariances. Démontrons maintenant 
que la matrice de variances-covariances À, du vecteur X est égale 
à CL | 

> Introduisons la notation: 


T 
- — (X"— a"). (47) 


C 


Yr=Ân—an+ 


La formule (43) montre que la distribution conditionnelle de la 
variable aléatoire À, pour une valeur fixée x’ du vecteur À” est 
normale, et que l'espérance mathématique conditionnelle et la 
variance conditionnelle de la variable X, sont définies par les 
formules | | 


T n— 1 

MIX, |z]=a, — — (z"—a°) = Mn — » _ (Zp— Mp)) (48) 
p=1 

DIX, 121= cn. (49) 


I1 découle de la formule (47) et des résultats de l'exemple 28 de la 
page 159 que la distribution conditionnelle de la variable Y, pour 
une valeur fixée zx’ du vecteur X” est aussi normale ; son espérance 
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mathématique est nulle, et sa variance conditionnelle est égale à 
Ch. C'est pourquoi la densité de probabilité conditionnelle de la 
variable Ÿ, pour À’ = zx’ est définie par la formule 


à 1 
sGnle)= y Lee 2% 

et, par conséquent, ne dépend pas de x’. Cela signifie que la variable 
aléatoire Ÿ,, ne dépend pas des variables aléatoires X,, ..., À. 
Or, les variables indépendantes sont toujours non corrélées. Par 
conséquent, les covariances de la variable aléatoire Ÿ, avec toutes 
les variables aléatoires X,, . .., X,-. sont égales à 0. Pour calculer 
ces covariances, prenons en considération le fait que a, = MX,, 
a’ — MX" et écrivons (47) sous la forme 


n—1 


p=i 


En multipliant cette égalité par À? et en appliquant l'opérateur 
d'espérance mathématique, nous trouvons la covariance entre Ÿ, 
et À,. En tenant compte du fait que, d’après ce que nous avons 
démontré, elle est égale à 0 pour r = 1,..., 7 — 1, nous obtenons 
la relation 

nn 


1 
C 
kn+ D — krp=0 (r=1, ..., n—1), (50) 
pæi 
d'où nous tirons 
N kepcpn=0 (r=1, ..., n—1) (51) 


Ecrivons maintenant (46), compte tenu de (40), sous une forme 
scalaire : 


ni 
CpnC 
pn£sn 
> krp (cvs — Cnn }= 8 (r, s=— 1, Fee n— 1), 
puni | 
ou, étaut donné que cyy =Cns) 
n—i1 n-1i : 
pr 
ÿ KrpCps — Cns > Can Kkrp = Ôrs: 
pi Pi 


Mais il découle alors de (50) que 


n—i1 & 
pk 


pi 
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C'est pourquoi la formule précédente peut être mise sous la forme 
suivante : 


ñn 


> krpCps = Ôrs (Ts S—=1, ..., n—1). (52) 


rames 


Les formules (51) et (52) montrent que les égalités (52) sont vérifiées 
pou s—1,...,n;r = 14,..., rRr — 1. En vertu de la symétrie 
de l'expression (37) de la densité de probabilité par rapport aux 
variables z,, . .., x,, nous obtenons, outre (52), d’autres égalités 
qui découlent de (52) par une transposition circulaire des indices 
1,...,n. Par conséquent, les égalités (52) sont valables pour toutes 
les valeurs r, s — 1, ..., nr. Cela démontre précisément le fait que 
les matrices C et Æ, sont respectivement inverses. 

4.3. Le coefficient de la fonction exponentielle. Démontrons 
maintenant la dernière partie de notre affirmation, l'égalité (38). 

> Remarquons que puisque c,, est un élément de la matrice C 
qui est l’inverse de ÆX, et que le complémentaire algébrique de l’élé- 
ment k,, dans le déterminant | K, | est | X.-|, alors c,, — | K.. |/ 
/| K; |. En portant cette expression dans (45), nous obtenons la for- 
mule (38) pour le coefficient À, de (37). 

Ainsi, pour tout n, le coefficient À, dans l’expression de la 
densité de probabilité normale est défini par la formule (38), a = 
= Ms, C = K3'. C'est pourquoi l'expression (37) de la densité de 
probabilité d’un vecteur aléatoire normalement distribué X peut 
s'écrire sous la forme 


fo 0 xp {—5(aT— mT) K< (z— mz)}. (53) 


Cette formule montre que la distribution normale multidimensionnelle 
est entièrement déterminée par l'espérance mathématique et la 
matrice de variances-covariances du vecteur aléatoire. Ainsi, la 
distribution normale est toujours entièrement déterminée par les mo- 
ments du premier et du second ordre. 

La distribution normale d’un vecteur aléatoire d'espérance 
mathématique m et de matrice de variances-covariances X sera notée 
de façon succincte par N (m, K). Ainsi, l’affirmation suivant laquelle 
le vecteur aléatoire À suit une distribution N (m, K) signifie qu'il 
suit une distribution normale et que son espérance mathématique et 
sa matrice de variances-covariances sont respectivement m et X. 
En particulier, l'affirmation suivant laquelle la variable aléatoire 
scalaire (réelle) À suit une distribution NW (m, D) signifie qu'elle 
suit une distribution normale et que son espérance mathématique 
et sa variance sont respectivement m et D. 
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Remarquons qu’en démontrant la formule (38) nous avons par 
cela même effectué le calcul complexe de l'intégrale n-uple : 


tire.  _ (22)7 
jé du=V(2x)" | K;|= ICI ° (54) 


Ce résultat est l’un des nombreux exemples de résolution des pro- 
blèmes mathématiques par des méthodes purement probabilistes. 
En utilisant des lois probabilistes, on parvient souvent à calculer 
des intégrales complexes sans effectuer véritablement l’intégration, 
ou à les simplifier de telle sorte que l'intégration ultérieure devient 
élémentaire; on peut également résoudre de nombreux autres pro- 
blèmes. 

&.4. Distribution conditionnelle des coordonnées. Les formules. 
(43), (48) et (49) montrent que la distribution conditionnelle de 
chaque coordonnée d'un vecteur aléatoire normalement distribué 
par rapport à toutes les autres coordonnées est normale; l’espérance: 
mathématique conditionnelle représente une fonction linéaire trans- 
latée des autres coordonnées, tandis que la variance conditionnelle 
ne dépend pas de ces coordonnées. 

Il découle des faits que nous avons établis la conséquence sui- 
vante: les distributions et les distributions conditionnelles des projec- 
tions dans tout sous-espace d’un vecteur aléatoire normalement distribué 
sont normales. 

> En écrivant la formule (48) sous la forme 


ni 


MIX, 12]=m, +87 œ—m)=mt+ &p(Zp—Mp)s (05) 


conformément aux relations (92) pour s = n, r — 1, ..., n — 1, 


nous vérifions que les quantités gp — —Cpn/Cnn Vérifient les équa- 
tions 

Les 

D kep£p=krn (F=1, ..., n—1), (56) 


ou sous forme vectorielle 


où Æ est le vecteur de coordonnées k,, . . ., kn-1n. 

Ainsi, l'espérance mathématique conditionnelle de la variable 
aléatoire À, pour X”" = zx’ est une fonction linéaire translatée de x, 
dont les coefficients sont déterminés par le système d'équations linéaires 
algébriques (56) ou (57). 

4.5. Cas des coordonnées non corrélées. Considérons le cas particu- 
lier où les coordonnées du vecteur aléatoire X ne sont pas corrélées. 
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= 


> Dans ce cas, k,, — 0 quand r = p et par conséquent 
1 
Cpa=0 pour ss Cpp=-— =4,...,n). 
pq P I Pr Cpp Kpp (p  ) 


L'expression (37) de la densité s'écrit alors 
n _ G1=) (xn=an)! 
f (tu 3 Th) = 


ne 2ku  . .e  Z2knn — 
V0) kr . nn 


— f1 (T1) 2 (22) ss. fn (zh). 


‘On voit que si les coordonnées du vecteur aléatoire normalement 
distribué sont non corrélées, alors la densité de ce dernier est égale 
au produit des densités de ses coordonnées. Donc, les coordonnées 
du vecteur aléatoire sont indépendantes. < 

Par conséquent, une condition nécessaire et suffisante pour que les 
coordonnées d'un vecteur aléatoire normalement distribué soient non 
corrélées est qu'elles soient indépendantes. 

4.6. Distribution normale dégénérée. Les formules (37) et (53) 
définissent la densité de distribution normale dans le cas seulement 
où le déterminant de la matrice X. est différent de zéro et par suite 
le rang de la matrice Æ, est égal à la dimension nr du vecteur aléa- 
toire X. Si le rang de la matrice Æ, est égal à r << n, on sait alors 
des résultats du $ 3.3 qu'il existe z7 — r dépendances linéaires entre 
les coordonnées du vecteur ÆX°, donc la distribution appartient à 
un sous-espace de dimension r translaté d’un vecteur m, (si m. 
n'appartient pas à ce sous-espace). Dans ce cas la fonction 6 de 
l'argument de dimension (7 — r) figure comme facteur dans l'expres- 
sion de la densité du vecteur X (voir point 2.3.4). 

D Si la matrice X. est de rang r << n, son déterminant diagonal 
d'ordre r est non nul. La matrice inversible correspondante K.- 
définit la distribution normale de la projection À” du vecteur x 
sur le sous-espace engendré par les axes de coordonnées correspon- 
dants: 

1 


fs (x') = VENT As. EXP { — _ (z’ _ m')* Ke (x° = m')} : (58) 


où m' — MX’. La projection À” de X sur l’espace complémentaire 
de dimension (n — r) se détermine de façon unique à partir des 
équations piA° = 0 (p=r+i, » ), OÙ Pr+is + + +, Pn SON 
les vecteurs propres de la matrice K, associés à la valeur propre 
nulle de multiplicité (r7 — r). Pour résoudre ces équations écrivons 
les matrices-colonnes p,, À et m, sous forme de blocs: 


pr=lpt pl, X'=IX" X°7], mT=[mT mT], 
Les équations deviennent 
PTX + pTX=0 (p=r+1, ...,n). (59) 
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Les vecteurs propres p,+1,..., Pr Se déduisent à partir des équations 
K;pp = 0 (p=r+1Â,...,n). Si l'on met la matrice X, sous 
forme de blocs 
K> = | Ka Kxsr | ’ 
Ksrx' K>" 


ces équations s'écrivent 


K>Ph + Kx'x"Pp = 0, Kx"x"Pp on Kx"P) = 0 


(p=r+1,...,n). (60) 

La matrice K.. étant inversible, on peut résoudre la première 

équation par rapport à @. On obtient alors p, = —K xx". 

D'où Pr = — PTE re Ka, puisque K1,.»-:K,», en vertu de (3.42). 
En portant cette expression dans (59), on trouve 

PTX—KesKeX)=0 (p=r+1, ..., n). (61) 


On obtient donc un système d'équations linéaires homogènes en 
les coordonnées du vecteur X”° — K....K:'X'°. Montrons que 
le déterminant de ce système est différent de zéro. A cet effet portons 
l'expression de 7 tirée de la première équation (60) dans la relation 
d'orthogonalité des vecteurs {p,}: 


PT Pa + D Pr = Opg- 
On obtient 
PT (pg — Are K pa) = Opg (P=TH 1, ..., R). 


Le second membre de l’une de ces équations est égal à 1 quel que 
soit qg fixe (g = r + 1,..., n). Or un système d'équations linéaires 
non homogènes admet une solution si et seulement si son détermi- 
aant est différent de zéro. Ce que nous voulions. L'équation (61) 
nous donne à présent 


X= Kpx Ke X 
ou 
X"=m'+KexKe (X'—m'). 


Il s'ensuit que la densité conditionnelle du vecteur À” sachant la 
valeur z’ de À’ s'exprime au moyen de la formule 


fa(z"1z')=0(z"—m'—K, L»K(z'—m')). 


En portant cette expression et l'expression (58) de la densité de 
probabilité f, (z’) dans la formule (23), nous obtenons la densité 
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de probabilité du vecteur aléatoire X : 


| 1 , , "1 , y , 
O7 °°? {+6 _— m V Ke (x — Mm )} X 


X (2 —m"—KrxKs;r(z'—m')). € (62) 


La distribution des probabilités, définie par cette formule, est appelée 
distribution normale dégénérée. 

Comme une fonction ô peut toujours être considérée comme une 
densité de probabilité normale correspondant à une matrice de 
variances-Covariances dont tous les éléments sont nuls, alors, pour 
la distribution normale dégénérée, le théorème démontré précédem- 
ment est encore valable : {es distributions et les distributions condition- 
nelles de toutes les projections sur tout sous-espace formé par les axes 
de coordonnées d'un vecteur aléatoire normalement distribué sont 
normales. 

Toutefois, les projections d'un vecteur aléatoire sur tous les 
sous-espaces formés par les axes de coordonnées peuvent être norma- 
lement distribuées également dans le cas où la distribution de ce 
vecteur n'est pas normale. 


Exemple 23. La densité de probabilité du vecteur X à r dimensions 
est définie par la formule 


f() = fx (à) + € (x), 


où fn (x) est une densité de probabilité quelconque et g (x) une fonction arbi- 
traire vérifiant les conditions: 


1) Ig(z)| <fn(z) pour tout zx; 


O0 
2) | g(z)drx=0 pour tout zx,i-k(k—=1, ...,n) 
00 


En Le Lans sur toute coordonnée du vecteur r, nous vérifions que les 
projections du vecteur X sur tous les sous-espaces formés par les axes de coor- 
données sont distribuées normalement. Toutefois, la distribution du vecteur X 
est différente d’une distribution normale quand £g (x) & 0. 


$ 5. Fonctions caractéristiques des variables 
aléatoires 


5.1. La fonction caractéristique et ses propriétés. On appelle 
fonction caractéristique d’une variable aléatoire réelle À l'espérance 
mathématique de la variable aléatoire ei} 7X, considérée comme une 
fonction de la variable réelle À. 

En vertu de (3.3), la fonction caractéristique de la variable 
aléatoire À s'exprime en fonction de sa densité de probabilité f (x) 
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par la formule 
g(A)= MeinTx = À eidfsf (x) dx. (63) 


Cette formule définit la fonction caractéristique aussi bien d'une 
variable aléatoire scalaire que d’un vecteur aléatoire X. La dimension 
du vecteur À coïncide évidemment toujours avec la dimension du 
vecteur aléatoire À. 


Etant donné que |eià7* | -— 4 pour toutes les valeurs réelles 
de À, il en découle que toute variable aléatoire réelle possède une 
fonction caractéristique. 

Etudions les propriétés des fonctions caractéristiques. 

1) Il découle de (63) que La fonction caractéristique est continue et 
que |g(Ü I<1, 80) =1, g(—Ù = 8 À. 

2) La fonction caractéristique est définie positive: pour toutes les 
valeurs À,, ..., ÀNn de la variable À et toutes les valeurs complexes 
E,, ..., En On a la relation 

N 


DE: (À p — Àg) EE > 0. (64) 
P, q=1 


»> En effet, il découle de la définition de la fonction caractéris- 
tique et des propriétés des espérances mathématiques que 


: = _ HAT 2 
D &(Ap— ho) Enta= D Me CP EE — 
P, g=1 p, {=1 


NO ilx, p 
=MIZe # El >0. < 
P= 


On peut démontrer que toute fonction continue définie positive 
£g (à), g (0) = 1, peut être la fonction caractéristique d’une variable 
aléatoire (51, 1191]. 

3) La fonction caractéristique g, (u) de la variable Y — AX + a 
obtenue par une transformation linéaire de X s'exprime en fonction de 
la fonction caractéristique g, (À) de la variable X par la formule 


gx (u) = ein"ag; (A’u). (65) 
> En effet, nous avons par définition 
= etuTaMfei (ATU)TX = einTog, (ATu). 


4) I1 découle en particulier de (65) que Za fonction caractéristique 
de la projection d’un vecteur aléatoire sur tout sous-espace G est égale 
à la restriction de sa fonction caractéristique sur ce sous-espace. 
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En effet, si a — 0 et À est la matrice de la projection sur G, 
alors ÀAT — À, AÀ = À pour tout À € Get AA = 0 pour tout vecteur 
À orthogonal à G. 

Dans le cas particulier où le sous-espace G est engendré par cer- 
tains vecteurs unitaires. de coordonnées, il faut, pour trouver la 
fonction caractéristique de la projection du vecteur À sur le sous- 
espace G, égaler à 0 dans l’expression de g, (À) toutes les coordonnées 
du vecteur À dans le sous-espace complémentaire. 

5) La fonction caractéristique g (À) de la somme des variables aléa- 
toires indépendantes X;,..., X, est égale au produit de leurs fonctions 
caractéristiques gr (À) (k=1,...,n): 

n 


eU= Î] 8. (66) 


En effet, nous avons, d’après le théorème du produit des espéran- 
ces mathématiques (29), l'expression 


h=—1 


6) Si X,,..., X, sont des variables aléatoires indépendantes, alors 


la fonction g (D, À = [,...A,IT, du vecteur aléatoire 
composé X = [XT...X al est égale au produit des fonctions caracté- 
ristiques £r (Àr) TA = 1, ., n) des variables X,, ..., X,: 

ea= fl 8x (A). (67) 


Nous avons, en effet, d’après le théorème du produit des espé- 
rances mathématiques (29) 


g (à) = MeiiTX = Me AfXi+...+ An Xn) Î MekTr. 


Si, inversement, la fonction caractéristique conjointe des varia- 
bles aléatoires X,,..., À, (du vecteur composé À = [X,,..., X,]7) 
s'exprime par la formule (67), alors les variables aléatoires X,, . .. 

, À, sont indépendantes. Cela découle de la formule (72) expri- 
mant la densité de probabilité à l’aide de la fonction caractéristique. 

Ainsi, les variables aléatoires X,, ..., X,, sont indépendantes si, 
et seulement si, leur fonction caractéristique conjointe est égale au 
produit de leurs fonctions caractéristiques. 


Exemple 24. La fonction. caractéristique de la variable aléatoire X 
ofenant des valeurs z,, ..., zx avec des probabilités p1, . .., px est définie 
par la formule 

N 
AT 
g ()= ÿ Pve ie” 


v= {À 
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Exemple 25. La fonction caractéristique de la distribution binomiale 
est définie par la formule 


n 
e(= D) Crpman-metam = (peil + qjn, 
m=0 
Exemple 26. La fonction caractéristique de la distribution de Pois-. 
son est donnée par la formule 


00 Dre 
g (A) = Ÿ HT ,-u,im ,.-h D (ue Am — emtelh 1) 
me M = "1! 


E x le 27. La fonction caractéristique de la distribution uniforme- 
dans l'intervalle (a, b) s'exprime par la formule 


CR CP 
EW= | == 0 
b—a A (b—a) 


a 


Exemple 28. La fonction caractéristique de la variable aléatoire; sca- 
laire X normalement distribuée s'exprime par la formule 


4 F iAx- eim tt - 
=== | EP dt = 2D 4 
sU= VD D F— VanD ES 
En appliquant la formule (1) de l'annexe 2, nous obtenons 
1 
Am DA 
£ (=e dE en) 


Il découle de (65) et (68) que pour tous réels a et a, la distribution de la variable. 
Y = aX + a, est aussi normale, et son espérance mathématique et sa variance: 
sont respectivement égales à m, — am, + a et D,, = a?D, (évidemment, en 
conformité avec (3.49) et (3.53) 
Exem P le 29. La fonction caractéristique de la distribution y s’expri-- 
me par la formule 
co (R—1iA)00 


| u+1 n+1 
8 (À) = | ee zhe-hx dx L yle-v dy. 
0 


(IN FÎT (u+1) 


où l'intégration est effectuée suivant le rayon Z dans le plan de la variable com- 
plexe y, issu de l’origine des coordonnées en direction du vecteur 4 — ik. En 
appliquant le théorème de Cauchy affirmant que l'intégrale sur un contour 
fermé d’une fonction analytique ne possédant pas de point singulier dans le 
domaine délimité par le contour est égale à 0, nous vérifions que l’intégration 
suivant le rayon ! peut être remplacée par l'intégration suivant la partie posi- 
tive de l’axc réel. Il découle alors de la définition (2.16) de la fonction gamma 
que cette intégrale cst égale à F (u 4) et nous-obtenons 


A) = AM TT (R—iA) TU, (69) 


Exemple 30. Dans le cas particulier d’une distribution exponentielle 
u = 0 la formule (69) se met sous la forme 


| k 
R= SE. 


4160 PROJECTIONS DES VECTEURS ALÉATOIRES [CH. + 


Exemple 31. Dans un autre cas particulier de la distribution du khi- 
eux (exemple 2.8), nous avons u = n/2 — 1, k = 1/2 et la formule (69) donne 


g (À) = (4 — 2in)-n72, 


Exemple 32. Pour un vecteur aléatoire à #7 dimensions normalement 
distribué nous avons 
O0 


g (À ù | exp {AT (TT —mT)K-1 («—m)} dr. 


Var . 


En ppouan au calcul de l'intégrale la formule (2) de l’annexe 2, nous obte- 
nons l'expression 


ei) =exp {ATm— Ta). (70) 


La formule (70) définit également la fonction caractéristique d’un vecteur 
aléatoire suivant une distribution normale dégénérée. Pour s'en convaincre, il 
suffit de remarquer qu’en vertu de (70) et (65) la formule (70) définit la fonction 
caractéristique de toute fonction linéaire Ÿ — 4 X + a, du vecteur aléatoire X 
suivant une distribution normale non dégénérée et d'exprimer le vecteur aléa- 
toire X du point 4.4.6 suivant une distribution dégénérée en fonction du vecteur 
aléatoire X”’ suivant une distribution normale non dégénérée. 


5.2. Expression de la densité de probabilité à l’aide de la fonction 
Caractéristique. La fonction caractéristique d'une variable aléatoire 
détermine entièrement et univoquement sa distribution. Nous démon- 
trerons cette affirmation pour les variables aléatoires possédant 
une densité de probabilité contenant éventuellement une combi- 
naison linéaire de fonctions Ôô. Le lecteur peut trouver la démon- 
stration dans le cas général, par exemple dans [51, 119]. 

> La densité de probabilité d’une variable aléatoire continue 
est non négative et intégrable. C'est pourquoi, en supposant qu'elle 
soit continue partout, sauf peut-être pour un ensemble fini de points 
(de courbes, de surfaces, d’hypersurfaces dans le cas d’une variable 
vectorielle), nous pouvons la représenter à l’aide de l'intégrale de 
Fourier : 

A 


1 ’ « 
1 = par lim À e-iATzg (À) dA. (71) 
TEA 


Cette formule détermine f (x) en tous les points de continuité, c’est- 
à-dire pour tous les z, sauf peut-être un certain ensemble de points 
de mesure globale nulle. Par conséquent, elle détermine entièrement 
la distribution de la variable aléatoire continue. 

La formule (71) s’écrit habituellement sous la forme 


f)= gr | ee () 2, (72) 


—œo 
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où l’intégrale doit être comprise au sens de sa valeur principale de 
To S le cas où la fonction g (À) n’est pas absolument intégrable 

, 1091]. 

La formule (72) détermine la densité de probabilité dans le cas 
également où la variable aléatoire À est discrète ou continue discrète, 
de sorte qu'en vertu de la formule (15) de l’annexe 1 la fonction & 
peut être représentée par une intégrale de Fourier: 


[. =) 


(= Gr | dà | eiT(u-06 (u) du. 


0 


Ainsi, la formule (72) définit une densité de probabilité et, par 
conséquent, une distribution correspondant à la fonction caracté- 
ristique donnée pour les trois types de variables aléatoires que l’on 
rencontre dans les problèmes pratiques. < 

5.3. Relation entre la fonction caractéristique et les moments. 
Pour établir la relation existant entre la fonction caractéristique 
et les moments d’une variable aléatoire, considérons tout d’abord 
le cas d’une variable scalaire. Sa fonction caractéristique est définie, 
conformément à (63), par la formule 


g()= | eff (x) dz. 


> Supposons que le moment d'ordre r &, de la variable aléatoire 
X existe. Dans ce cas existe également la dérivée 


g0) (à) = i" | z'eikef (x) dx = i"M X'einX. 
En posant ici À = 0, nous trouvons l'expression du moment a, à 
l’aide de la fonction caractéristique : 
ar = à "g( (0). (73) 


Si la variable aléatoire À possède des moments jusqu’à l’ordre v 
inclus, alors, en vertu de (73), la fonction caractéristique g (À) 
peut être représentée à l’aide de la formule de Maclaurin: 


gO)=1+S ENTER, (74) 
r=| 
où R, est le terme restant. 


En remarquant que e-tÂmx g (À) est la fonction caractéristique 
de la variable aléatoire centrée X° — X — m.,, nous obtenons de 


11—0244 
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(73) l'expression 
=irfse-tmeg ()] (5) 


Si la variable aléatoire X possède des moments centrés finis 
jusqu’à l’ordre v inclus, alors la fonction e-‘*"x g (À) peut être 
représentée à l’aide de la formule de Maclaurin : 


Vv 
e-iameg (à) =1+ D rar LR. (76) 
r=2 
Exactement de la même façon, nous obtenons pour le vecteur 
aléatoire à z dimensions X la formule des moments a, ....» 
et Uh:,..., hno hs +. + An =Tr: 
ô"g (à) 


iT 
hs .... = 7 [ET on®: . . 8Aèn le 9 (77) 
— jT cal {AT r 
Uh:, sos AR — L ne 2. oxn TE CIE LU (78) 


et les expressions des fonctions g(A) et e-‘ mx (1) à l'aide des 
moments : 


: 
œ 
gO)=AHD Er D He ni AU RS, (79) 
el (dite 7 
e-iATmxg (À) = 


=A+Di D este ah MERS, (80) 
r=2 hi+. D +hner 


où l'égalité sous le signe de la somme interne indique que la som- 
mation est étendue à toutes les valeurs ,, ..., k, = 0, 1, 
dont la somme est égale à r. < 

Les relations obtenues nous donnent deux procédés simples et 
commodes pour calculer les moments d’une variable aléatoire: le 
procédé de dérivation de la fonction caractéristique et le procédé 
de son développement suivant les puissances de À. 


Exemple 33. Pour la variable aléatoire X scalaire normalement distri- 
buée, nous avons, en vertu de (68), la relation 


— DM © (—1)D:  ESD° 
e=iam,g (À) =e _- X 925 — "7 #1as 
AL Dr 2 er 
s=0 s=0 
Nous obtenons, en comparant cette formule à (76), l'expression 


(2s) ! 
Hos-1 =0, Us LITE De: 
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Ce résultat coïncide avec celui que nous âvions obtenu au point 3.6.1. Dans no- 
tre cas, le procédé de développement de la fonction caractéristique en série est 
notablement plus simple que le calcul direct des moments. 

Exemple 34. Nous avons, pour un vecteur aléatoire à’n dimensions 
normalement distribué, en vertu de (70), l'expression 


4 , Tr co 
LT —— 11 K À = | 8 
seqee 2 = (ATK) 
s=0 
oo : ñn 
is 
=ù S Epiqi* Æp,a Mpia << pda (81) 
s=0 Pio To Ps, a,=1 


Il en découle que tous les moments centrés d'ordre impair d'un vecteur aléatoire 
normalement distribué sont nuls. En comparant les formules (80) et (81), nous 
ROBE PONT les moments centrés d'ordre pair tels que hk1 + ... +h, = 2s 
la formule 


hi! ... hnl 
Has, 1! hn— 25e! > KE, FR ka, (82) 


où la sommation est étendue à toutes les permutations possibles différentes des 
2s indices pr, Qt, + + -» Pss 9A tels que h, indices sont égaux à 1, », sont égaux à 

, +. h, Sont égaux à n. Il est évident que le nombre de telles permutations, 
et par conséquent le nombre de termes dans la somme (82), est égal à 
(25) /(R11 ... hA 1). En portant dans (82) successivement s = 2, h; — 4,h, — 0 
sik>œi; hmM=3;hk=1,h =08k>2; hM=h=2,h; = 0 si k > 2; 
ki = 2, ha = h3 = 1, hp = 0 si k > 3;: khi=he=h3= hs = 1, h = 0 sl 
k > 4, nous obtenons les formules suivantes pour les moments centrés du 4-ième 
ordre : 


Mio... 0 SÂîe U310 ... 0 = 3#11k1a 
Port s0T ki1Koa + 2h, 
Ho4io ... 0 = Faifes + 2kiakis, 
Mituto 0 = False + Fisk2e + krgkage 


Les formules (82) et (83) Dproen les moments centrés d’un vecteur alé- 
atoire normalement distribué à Ï aide des éléments de sa matrice de variances- 
covariances. 

Remarquons que la démonstration que nous avons donnée de la formule (82) 
pour les moments d’un vecteur aléatoire normalement distribué à l'aide du dé- 
veloppement de sa fonction caractéristique en série est très simple, alors que 
le calcul direct des moments effectué à l'aide des formules du 8 3.5 aurait été 
très compliqué. 


(83) 


Si la distribution d'une variable aléatoire est entièrement concentrée 
dans un domaine limité, alors ses moments de tous les ordres existent et 
définissent entièrement sa distribution. 

> Pour démontrer la condition suffisante, remarquons que si 
[Ar | (k = 1,...,n), alors | Œn,....,n, [<< h1... Zhn, de 
sorte que les termes de la série de Maclaurin de la fonction caracté- 
ristique sont inférieurs en module aux termes correspondants de la 


11% 
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série convergente pour tous les À,, . .., À, de la série 


a h h 
A+ D D LR An: An — p-ATI 
PR Si , 


rm hit...<+hner 


où L —[l,,...,1,1T. 

5.4. Les semi-invariants. Il est parfois plus commode d'utiliser 
le développement suivant les puissances de À non pas de la fonction 
caractéristique, mais de son logarithme. 

Si les moments d’une variable aléatoire scalaire À existent jusqu’à 
l’ordre v inclus, alors, en vertu de la formule de Maclaurin, nous 


avons 
v 


Ing(= DEAR. (84) 
ri 
Les coefficients 
[dre 
x, = i ES RE (85) 


sont appelés les semi-invariants ou les cumulants de la variable aléa- 
toire X. En exprimant les dérivées de In g (4) à l’aide de dérivées 
correspondantes de la fonction caractéristique, on peut, en vertu de 
(73), exprimer les semi-invariants de la variable aléatoire en fonc- 
tion de ses moments, et inversement. Nous laissons au lecteur le 
soin d'établir lui-même ces relations. Si l’on utilise la formule 


In g (À) = im,A + In {e-tÂmx g (à)} (86) 


et si l’on prend en considération la formule (75), alors on obtient 
l'expression des semi-invariants de la variable aléatoire en fonction 
de son espérance mathématique et de ses moments centrés: 


Ki = Mes Xe = Me = Ds, 3 = Us, 
#y = ui — SU As = Us — 10 hou, (87) 
#8 = Me — 15 ou — 10us + 30 pz, 

Si les moments du vecteur aléatoire À à x dimensions existent 


jusqu'à l’ordre v inclus, alors la formule de Maclaurin nous conduit 
à la relation 


vV 
# 
ngQ=di re ... AMEL RY. (88) 
ræ=i hat+...+hne=r 
Les coefficieuts 


gr" Ing(A 
msg be Outer (89 
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sont appelés les semi-invariants ou les cumulants du vecteur aléatoire 
X. Il est clair que les semi-invariants d'ordre r s'expriment en 
fonction des moments jusqu’à l’ordre r inclus, et inversement. 

Les formules (68) et (70) montrent que pour une variable aléatoire 
normalement distribuée, tous ses semi-invariants d'ordre supérieur à 
deux sont nuls. Par conséquent, les semi-invariants d’une variable 
aléatoire d’un ordre supérieur à trois caractérisent l'écart d’une 
distribution à la distribution normale. 

Les semi-invariants possèdent une propriété intéressante: les 
semi-invariants de la somme des variables aléatoires indépendantes sont 
égaux aux sommes des semi-invariants correspondants des composantes. 
Cela découle de la propriété (5) des fonctions caractéristiques. 

5.5. Ordre de grandeur des termes restants dans les développements. 
Les termes restants dans (79), (80) et (88) sont de l'ordre o (| À |)". 


> En développant e‘*7X par la formule de Maclaurin et en 
tenant compte que [ATX |< |A | | À |, nous obtenons 


EQ)=1+ me + D EM OFXY +R, (90) 


où 
LRs1= SIM GTX) (ex —1)< 


LE MIX I ex 14120 (12 1"). 


Comme e-#7mx g# (A) est la fonction caractéristique d'une varia- 
ble aléatoire centrée ZX, il découle de ce que l’on a démontré que 
Rs; = o(IA l”). 

Enfin, en portant dans la formule 

V 
in (+2= 3 (—174 E+v(e) (94) 

r=i 
l'expression z = g (À) — 1 de (90), nous vérifionsque R4 = o (| À |"). 
En particulier, en posant dans (90) et (91) v = 2, nous obtenons 


pour la fonction caractéristique d’une variable aléatoire À possédant 
des moments du deuxième ordre fini l'expression 


Ing) = me ATK A+ 0!(] À 2). (92) 


CHAPITRE 5 


FONCTIONS DES VARIABLES ALÉATOIRES 


$ 1. Moments des fonctions des variables aléatoires 


1.1. Formules exactes pour les premiers et les seconds moments. 
Aux points 3.1.3 et 3.3.5, nous avons appris à trouver les premiers 
et seconds moments des fonctions linéaires des variables aléatoires. 
Pour déterminer ces moments, il suffit de connaître les premiers et 
les seconds moments des variables-arguments et il n'est pas nécessaire 
de connaître la distribution des variables-arguments. Il en est tout 
autrement pour les fonctions non linéaires des variables aléatoires. 

Supposons que le vecteur aléatoire Ÿ (dans le cas général, com- 
plexe) représente une fonction donnée du vecteur aléatoire réel X 
dont la densité de probabilité est f (x), Ÿ — œ (X). Les moments de 
la variable aléatoire Ÿ peuvent être déterminés à partir de la for- 
mule (3.3) pour l'espérance mathématique d’une fonction d'une 
variable aléatoire. Nous obtenons alors, en utilisant cette formule 
et en représentant le vecteur sous forme d'une matrice-colonne en 
vertu des définitions (3.35), les expressions suivantes: 


my = MY =Me(X)= | (x) (e) az (1) 
L,=MYY*=Mq(X)p(x}"= | of, 


K,= MYYX = Mie (4) —m,] [e (X)*— mi] = 


= p@-milp@-milf@ar.  () 


On détermine exactement de la même façon, à partir de la for- 
mule (3.3), le second moment croisé et la matrice de covariances 
croisées de deux vecteurs aléatoires représentant les fonctions Ÿ  — 
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— p(X), Z =v(X) du vecteur âléatoire réel X: 


Tyu=MYZ+=Mo(X) p(XN= | pb" fGdn (à 
Ky= MY | [p()—mllh(o*-mtif( dr. (5) 


Les formules (1)-(5) sont également applicables aux fonctions 
d'un vecteur aléatoire complexe. Dans ce cas, on doit interpréter À 
comme un vecteur aléatoire réel à 27 dimensions dont les coordon- 
nées sont les coordonnées des parties réelles et imaginaires du vecteur 
argument aléatoire complexe à x dimensions. 

Dans le cas particulier des vecteurs unidimensionnels Ÿ et Z, 
les formules (1)-(5) définissent les espérances mathématiques et les 
moments du second ordre des fonctions scalaires des variables aléa- 
toires. 

Les formules (1)-(5) montrent que, pour déterminer les espérances 
mathématiques et les moments du second ordre des fonctions non 
linéaires des variables aléatoires, il est nécessaire, dans le cas géné- 
ral, de connaître la densité de probabilité des variables-arguments. 

Nous proposons au lecteur de démontrer lui-même que dans le 
cas particulier des fonctions linéaires @ (X) et ÿ (X), il découle des 
formules (1), (3) et (5) respectivement les formules (3.49), (3.50) 
et (3.55) pour les espérances mathématiques et les matrices de va- 
riances-Covariances des fonctions linéaires du vecteur aléatoire X. 


Exemple 1. Les billes pour soupapes à billes sont fabriquées avec une 
erreur sur la mesure du rayon, qui est distribuée suivant une loi normale d'es- 
pérance mathématique r, et d'écart quadratique moyen o (évidemment © & ro). 
Trouver l'espérance mathématique et la variance de l’aire de la coupe diamétra- 
le de la bille. 

L'aire S de la coupe diamétrale de la bille s'exprime en fonction de son 
rayon aléatoire par la formule bien connue S — x7R1. Par conséquent, la varia- 
ble aléatoire S est dans ce cas concret une fonction non linéaire de la variable 
aléatoire R. C'est pourquoi, pour déterminer m, et D,, il convient d'utiliser les 
formules (1) et (3). En appliquant la formule (1), nous aurons 


© © 1 r—r0 2 
Ma = | sràf (r) drær 1 | re ? ° dr. 
O0 


L o y 2x É 


Cette dernière intégrale, avec le facteur 1/0 2x, représente le moment non 
centré du deuxième ordre de la variable aléatoire R qui, conformément à la 
formule (3.29), est égal à r3 + 0°. Nous avons, par conséquent, 


Ma = AN (r8 + o?}). 
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On déduit ainsi de la formule (3) l'expression 
00 = ( r-r0 
| (r3—rê— 01} e 


1 
Ds= T° ——— 
| o V 2x 


Nous obtenons alors en calculant cette intégrale (ce que l'on peut faire en ou- 
vrant les parenthèses sous le signe d'intégration et en intégrant par parties en se 
débarrassant de la quatrième puissance de r) 


D, = 2n°0? (2r8 + 0°). 


Exemple 2. Trouver l'espérance mathématique et la variance de la 
variable aléatoire 


Y = X—RKX, 


où X est une variable aléatoire uniformément distribuée dans l'intervalle 
(—a, a). 

La densité de probabilité de la variable aléatoire X dans l'intervalle (—a, a) 
est égale à 1/(2a) ; en dehors de cet intervalle, elle est nulle. C'est pourquoi nous 
obtenons, en appliquant la formule (1) 


a 
my =— | (x3— kz) dr =0. 


La formule (3) nous donne alors l'expression 


15a—42ka? + 35k? 


2 
105 si 


a 
1 
Dy=s | (22— kr)? dr = 
-a 


Exemple 3. Trouver dans les conditions de l'exemple 2 la covariance 
des variables aléatoires 


Y = XS—kX, Z—= XS+IX. 


Nous trouvons tout d’abord, en vertu de la formule (1), l'espérance mathé- 
matique de la variable aléatoire Z, qui s'avère nulle. Nous trouvons après 
cela, conformément à la formule (5), l'expression 


a 
d'a 2 2 
ee [ (are) la) dz = 156 ie tie 35kE à 
a 


1.2. Méthode de linéarisation. La complexité des calculs des 
espérances mathématiques, des variances et des covariances des 
fonctions non linéaires des variables aléatoires conduit naturellement 
à sacrifier la rigueur à la simplicité et à rechercher des formules 
approchées simples, semblables aux formules pour les moments des 
fonctions linéaires des variables aléatoires. Pour obtenir des formules 
approchées de ce genre, on utilise habituellement la méthode dite de 
linéarisation, qui consiste à remplacer les fonctions non linéaires par 
des fonctions linéaires qui leur sont suffisamment proches. 
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Considérons tout d'abord le cas d’une fonction scalaire d’une 
variable aléatoire scalaire X. Dans ce cas, la linéarisation de la 
fonction non linéaire @ (X) se raméëne à remplacer la courbe y = œ (x) 
par une certaine droite y = ax <- b. Si l’on parvient à choisir une 
droite suffisamment proche de la courbe dans le domaine des valeurs 
pratiquement possibles de la variable aléatoire À (dans le cas d’une 
distribution normale de la variable aléatoire À dans l'intervalle 
(mx — 30,, mm, + 30+), on 
peut s'attendre à ce que 
l'espérance mathématique et 
la variance de la fonction 
linéaire correspondante de la 
variable aléatoire ZX soient 
proches de l'espérance mathé- 
matique et de la variance 
de la fonction non linéaire. 

Considérons maintenant 
comment doit-on choisir la 
droite devant remplacer la Mx 
courbe donnée. Etant donné Fig. 18 
que la densité de probabilité 
de la variable aléatoire prend habituellement des valeurs élevées 
autour de l'espérance mathématique et des valeurs plus faibles loin 
de l'espérance mathématique (les valeurs possibles de la variable 
aléatoire sont concentrées avec une forte densité autour de l’espé- 
rance mathématique et une moins forte densité loin de l’espérance 
mathématique), il est naturel de rechercher une précision plus élevée 
de la droite d’approximation à la courbe donnée autour de l’espé- 
rance mathématique de la variable aléatoire argument, c’est-à-dire 
autour du point x = m,. C’est pourquoi le procédé le plus naturel 
de linéarisation pour le but que nous avons fixé, est le remplacement 
de la courbe y — œ(x) par un segment de sa tangente au point 
x = m, (fig. 18). Lors d'une telle substitution, la dépendance véri- 
table non linéaire de la variable aléatoire Ÿ de X sera remplacée 
par la dépendance linéaire approchée 

Y & pm.) + p'(m.) X°. (6) 
Il est bien entendu que, pour qu’une telle substitution soit possible, 
il est nécessaire que la dérivée de la fonction œ (x) existe au point 
z = m.,. Du point de vue analytique, le remplacement de la fonction 
non linéaire œ (x) par la fonction linéaire (6) est équivalent au rem- 
placement de l'accroissement de la fonction œ (x) au point m, par 
sa différentielle. 

Nous obtenons de façon analogue la formule (6) dans le cas d'une 
fonction vectorielle du vecteur aléatoire X, dérivable au point m.…. 
Dans ce cas ®” (m.) doit ètre interprété comme la matrice des dérivés 
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partielles de toutes les coordonnées du vecteur @ (x) par rapport à 


toutes les coordonnées du vecteur x au point z = m, : 


q’ (M >) ES . (7) 
) 


0x: OZa LÉ ÔTn X=Mx 


En remplaçant la fonction @ (X) par la fonction linéaire (6), 
on peut appliquer, pour calculer l'espérance mathématique et la 
matrice de variances-covariances du vecteur aléatoire Ÿ, les for- 
mules (3.49) et (3.50). Nous obtenons en définitive les formules appro- 
<chées 


my pm), K,Æ& ®"(m.) K;:p (m.)*. (8) 


Les formules (8) sont valables pour les variables aléatoires scalai- 
res ou vectorielles À et Ÿ aussi bien réelles que complexes, et per- 
mettent de déterminer de façon suffisamment simple sans calculs 
difficiles des expressions approchées pour les espérances mathéma- 
tiques et les moments du second ordre de toute fonction non linéaire 
des variables aléatoires continues ainsi que leurs premières dérivées. 
Ces formules sont d’autant plus précises que la fonction ® (x) s’écarte 
moins de la fonction linéaire (6), qui la remplace dans le domaine des 
valeurs pratiquement possibles de la variable-argument ZX. Plus 
fortement la fonction p (x) s'écarte de la fonction linéaire (6), moins 
grande doit être la variance des coordonnées du vecteur À pour que 
l’on puisse utiliser les formules (8). Si la fonction œ (x) s’écarte faible- 
ment de la fonction linéaire (c’est-à-dire ’ (x) varie lentement avec 
la variation de x), alors les formules (8) peuvent être également suf- 
fisamment précises pour les dispersions fortes des coordonnées du 
vecteur À. Si p (x) s'écarte fortement de la fonction linéaire (p° (x) 
varie rapidement), alors on ne peut utiliser les formules (8) que 
pour des dispersions suffisamment faibles des coordonnées du vec- 
teur À. 


Exemple 4. Trouver dans les conditions de l'exemple 1 l'espérance 
mathématique et la variance de l'aire de la coupe diamétrale de la bille par la 
méthode de linéarisation. 

Dans ce cas précis, nous avons S = œ@ (R) = xR*°. C'est pourquoi p° (r) = 
— 2nr et les formules (8) nous donnent 


Ms © P (mr) = Q (ro) = Tr, 
D, = 1@" (m,) [202 = | q’ (ro) l20° = 4nrio. 


En comparant ces formules avec les formules exactes de l’exemple 1, nous voyons 
que la méthode de linéarisation, dans ce cas, donne une bonne précision si 0? « 
€ rà, c'est-à-dire si la variance du rayon de la bille est faible par rapport au 
carré de son espérance mathématique. Par exemple, si o Æ 0,1r, l'erreur rela- 
tive de détermination de m, par la méthode de linéarisation constitue 4 % et 
l'erreur relative de détermination de la variance D,, 0,5 %. 
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Exemple 5. Résoudre l'exemple 2 par la méthode de linéarisation. 


Dans ce cas, nous avons @ (x) = 2° — kz, p (x) — 3x? — k, et les formu- 
les (8) nous donnent 


my = (mn) = p (0) = 0, 
D, = 19" (mx) FD; = 19" (0) |? D; = RMD.. 


En se rappelant que la variance d’une variable aléatoire uniformément distri- 
buée sur un intervalle de longueur 2a est égale à a2?/3 (exemple 3.3), nous obte- 
nons en définitive D,, Æ k2a/3. En comparant ce résultat à la formule exacte de 
l'exemple 2, nous voyons que, dans ce cas, la méthode de linéarisation donne 
une bonne précision si a? € k. 

Exemple 6. Résoudre l'exemple 3 par la méthode de linéarisation. 

Dans ce cas, o (x) représente un vecteur bidimensionnel de coordonnées 
P1 (x) = À — kr, P2 (x) = © + x, 


q'imo=g o= [0] ]. 


et la seconde formule (8) conduit à 1 expression 


Dy kyz —k KID, —kID,- 
Las DT 2 Pete Def ue api Je 
kyz D: l —kD, LD, 


d'où nous tirons 
kla3 


kyz= —klDx= — 3 e 


En comparant cette formule à la formule exacte de l'exemple 3, nous voyons 
que, un ce cas, la méthode de linéarisation donne une bonne précision si 
a € k, L. 

Exemple ‘%. Les billes des roulements à billes sont fabriquées avec 
une erreur ayant pour conséquence que chaque bille pre Ane en fait un cy- 
lindre elliptique de demi-axes ro + X1 et ro + Xe, de hauteur L, + X3s, où ro 
et Z, sont les valeurs nominales du rayon et de la hauteur de la bille, el X1, Xas 
X, sont les erreurs aléatoires de fabrication représentant les coordonnées d'un 
vecteur aléatoire normalement distribué d'espérance mathématique nulle. 
Trouver l'espérance mathématique et la variance du volume de la bille. 

Nous avons dans ce cas V = @(X) = x (ro + X1) (ro + X a) (lo + X 3), 


, _| 99 ôp d9 L « 
P mx)=| ETA Ôt: Ôts ee =trrolmronril, 


et les formules (8) nous conduisent aux expressions 
mo © Pimx) = p{(0) = trêlos 
TU kyr Aria is || Srolo 
Do © [frolotrolonri] | K1e og os Aolo |—= 
kis as kgs INT 
= 4 r$ [Kai + 2kia + ka9) NE 42 (k1s has) iloro + Kssrôle 
Dans le cas particulier des erreurs indépandantes X1, Xe, Xes Kia = X13 = 


= kg = 0 et 
. D, & ré [(Di+ Ds) + Doré], 


OÙ Di = kiys Da = kags Ds = kgs. 
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Exemple 8. Estimer la précision dans la détermination de l'espérance 
mathématique et de la variance d'une variable aléatoire Y = œ (X) dans le 
cas de variables aléatoires X et Ÿ en supposant que la fonction œ (x) possède 
une dérivée seconde bornée dans le domaine des valeurs possibles de la va- 
riable X. 


$ 2. Fonction de répartition d’une fonction 
de l’argument aléatoire 


2.1. Principe général de détermination des distributions des fonc- 
tions. Dans de nombreux problèmes pratiques, particulièrement en 
statistique mathématique, il est nécessaire de trouver la distribution 
d’une fonction de l'argu- 
ment aléatoire. Nous résou- 
drons ce problème en suppo- 
sant que toutes les variables 
aléatoires, aussi bien scalai- 
res que vectorielles, sont 
réelles. Les procédés de 
calcul de la distribution 
d'une fonction Ÿ — œ(X) 
de la variable aléatoire X 
sont basés sur la considéra- 
:, tion évidente suivante: 
| Ag=% (8) pour que la variable aléa- 

: toire Ÿ appartienne à l’en- 

Fig. 19 semble PB, il est nécessaire 
et suffisant que la variable 
aléatoire X appartienne à l'ensemble À, des valeurs zx qui 
correspondent aux valeurs de la fonction œ(z) appartenant à 
l’ensemble B, A4, = {x: ®(x) E B}*). Cela est illustré sur la 
fig. 19 pour les variables aléatoires scalaires X et Y. C'est pourquoi 
la probabilité d'appartenance de la variable Y — œ (X) à l’ensemble 
B est égale à la probabilité d'appartenance de la variable X à l’en- 
semble À, = {z: (x) € B}. 

2.2. Détermination de la fonction de répartition. Divers procédés 
sont possibles pour déterminer la distribution de la variable aléatoire 
Y en fonction de la manière dont on choisit l’ensemble B. En effet, 
si l'on adopte B = {Y << y}, la probabilité d'appartenance de la 
variable À à l’ensemble correspondant 4, = À, = {x: q (x) << y} 
sera la fonction de répartition de la variable aléatoire Ÿ — œ (ZX). 

Il est évident que, pour qu'il soit possible de déterminer la 
fonction de répartition de la variable Y = œ (X), il est nécessaire 
et suffisant que la fonction o (x) vérifie la condition unique: pour 


*) Cet ensemble 4, est appelé image réciproque de l’ensemble B (corres 
pondant à la fonction œ (x)) et est noté ®-! (B), A, = @! (B). 
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tout y doit être déterminée la probabilité d'appartenance de la 
variable aléatoire X à l'ensemble À, — {x: p (x) << y}. De telles 
fonctions sont dites mesurables. Les fonctions que l’on rencontre dans 
les problèmes pratiques sont toujours non seulement mesurables, 
mais encore, la plupart du temps, continues et souvent dérivables. 

Supposons que l’on connaisse la densité de probabilité f, (x) de 
la variable aléatoire À. Dans ce cas, en vertu du principe que nous 
avons formulé, la fonction de répartition F, (y) de la variable aléatoire 
Y = œp(X) est définie par la formule 


F)=| fi(odr= | fo dr. (9) 


A p(x)-<y 
Cette formule est valable aussi bien pour les variables aléatoires 


X et Ÿ scalaires que vectorielles (y compris les cas où l’une d'elles 
est scalaire, vecteur unidimensionnel, et l’autre vectorielle). 


Exemple 9. On connaît la densité de probabilité f, (x, y) d’un vecteur 
aléatoire bidimensionnel (X, Y). Trouver la loi de distribution du rapport les 
coordonnées de ce vecteur Z = Y/X. 

Compte tenu du fait que y/x << : quand Ÿ << 27, si x > 0, et quand y > 
> 2z, si x << 0, nous trouvons, en vertu de la formule (9), la fonction de répar- 
tition de la variable aléatoire Z: 


0 0 
RG = (| nana | ant nat 
u/x<2 — 00 zx 
+{é | hwna. 
0 — 00 


En dérivant cette formule par rapport à z, nous trouvons la densité de probabi- 
lités de la variable Z: 


fa G)= | |zlfiG 20) d7. (10) 


En particulier, dans le cas d'une symétrie circulaire de la distribution des 


arguments f1 (x, y) = p (x? + y*), nous obtenons, à l'appui de la formule (10), 
l'expression 


f2(2)=2 | zp(z?(1+22)) dx. 


Ot—, 8 


Le changement de variables u = z Vi+z permet de mettre cette formule 
© 


7) 
sous la forme f, (z) — TT | up (u?) du. Ici, l'intégrale est une constante 


0 
qui est définie aisément à partir de la condition d'égalité à l'unité de l'intégrale 
e la densité de probabilité f, (z) étendue à tout le domaine des valeurs possibles 
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du rapport Z = Y/X, c'est-à-dire de —c à +. Nous obtenons en définitive 


la distribution de Cauchy (exemple 3.6): fa (z) = rs): 
Exemple 10. La distribution du vecteur aléatoire X à n dimensions 
est définie par la densité de probabilité f, (zx) = p (xŸCzx), où C est une matrice 
symétrique définie positive. Trouver la loi de distribution de la forme quadra- 
tique Y = XTCX. 
Nous trouvons, à l'aide de la formule (9), l'expression F, (y) — 


T 
= | pr Cr dx Or, toute matrice symétrique définie positive peut’être 


xTCx<y 
ramenée à la torme diagonale par une transformation orthogonale. Nous note- 
rons par la lettre A la matrice iabonale dont les éléments sont les valeurs pro- 
pres h. ..., Àn de la matrice C. Nous obtenons alors, après un changement adé- 
quat de variables et en tenant compte du fait que le déterminant d’une trans- 
formation orthogonale est égal à l'unité, l'expression 


Fa (u)= | p(uTAu) du. 


uTAu<y 


Introduisons maintenant la notation }/ Au = pa *) où p est une variable 
scalaire non négative (le module du rayon vecteur du point dans l’espace à nr 
dimensions) et &« un vecteur à r dimensions de module unité, &7@ = 1 (les coor- 
données 1, ..., &«, du vecteur « représentent les cosinus directeurs du rayon 
vecteur du point de l'espace à » dimensions). Passons maintenant des variables 
d'intégration w1,...,u, aux variables p, &,..., «,_,1. Le jacobien de la trans- 
der est el en vertu des relations u, = Pan! V Xp et aa = a+... 
... + ai = 1, à 


Xi P 
Vu 1 
Te (9 
— 0 — (9) 
J Vi Ve D (—1)Hpr-1 
Œn-1 p an Vi... An 
0 0 
V An VA: 
Qn __ 10 0 | Gn—1P 
V'Ân An V An Qn V' An 
Or, comme u7 Au = paTlap = p®, notre intégrale se met sous la forme 
F:(y)= \ P (p?)p?-1dp \ ie | D AREAS 
se 2 CS 2° lan | VA CE Àn 
PU ai+...+an-1 <1 


_*) La notation V A désigne la matrice diagonale dont les éléments sont 
Vis c V'Ane 
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L'intégrale sur les variables &;, . .., @,_, représente une quantité constante c. 
C'est pourquoi nous avons 


Vu 
F:(y)=c p (p?) pr? dp. 


En dérivant cette formule par rapport à y, nous trouvons la densité de probabilité 
de la variable aléatoire Y : 
ñn 


——1 
RU=Su? pit 


La constante c est déterminée de la condition F; (oo) = 1. 
Dans le cas particulier d'un vecteur X normalement distribué, cela” donne 


a 
[CT +sTes 
P (zTCx) LL VS. * 


et la formule obtenue se met sous la forme 


4 (y) = eur 
fa@)=pn =D y ee ?., (14) 


+ n 
2 oe 
2 r(—.) 


Cette distribution, que l’on rencontre souvent en statistique mathématique, 
est appelée distribution du khi-deux car la variable aléatoire correspondant à 
cette distribution cest appelée en statistique variable du khi-deur. Le nombre 
entier n dans (11) est appelé nombre de degrés de liberté. En comparant (11) à 
(2.15), on voit que la distribution du khi-deux est une distribution y de para- 
mètres k — 1/2, u = (n/2) — 1. 

Exem P le 11. La distribution des variables aléatoires X et Y est définie 
par la formule 

k l 


Li +1 
him y)=zT y g(z+y)1(z)1 (y), 
où q (t) est une fonction arbitraire (qui peut comporter une fonction 6). Trouver 
la loi de distribution du rapport Z — Y/X. 
Portant cette expression de f, (r, y) dans (10), nous obtenons 
l 2% R+I 
| T1 1 
ACER ET TEE) 
0 


Le changement de variables u = x (4 + z) conduit à l'expression 


I R+! OO k+HI 
nm. ou RS 
fe ()=2 (1+ 2) 1(2) \ u q(u) du. 
0 


Cette dernière intégrale est une quantité constante. On peut la calculer à partir 
de la condition de norme (l'égalité à 1 de l’intégralc de la densité de probabilité). 
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Nous obtenons en définitive l'expression 


k+I 
r (=) 

k l 
r(z)r() 
Soulignons le fait que cette distribution ne dépend pas de la forme de la fonction 
4 (@: Ainsi, pour toute fonction gq (t) figurant dans l'expression de la densité 

e probabilité f, (x, y), la distribution du rapport Z — ŸY/X est définie par la 
densité (12). 

En posant en particulier q (t) = ce-t/? pour un choix adéquat de la con- 
stante c, nous obtenons Île résultat suivant: La densité de probabilité du rapport 
de deux variables aléatoires indépendantes X et Y suivant une distribution du %° à 
& et l degrés de liberté respectivement est définie par la formule (12). 

Exemple 12. La distribution du vecteur aléatoire X à n dimensions 


possède une symétrie sphérique, f1 (x) = p (xx). Trouver la loi de distribution 
de la variable aléatoire 


hs ñn 
en n(n—1) + _ 
T=X VE , X=- 2 XL. (13) 


_A+I 


1 PA A 
f2 (2)= 22 (Ms) ? 1(:). (12) 


Nous trouvons, en vertu de la formule (9), 


Fa(= | p(aT 2) dx, 
À! 


où l’ensemble 4; est défini par l'expression 


a n 
Ai={z: x VE T c is, = > en}. 


T' Tnt 


Effectuons une transformation orthogonale du vecteur x de telle sorte que la 


quantité x Y n devienne la tte coordonnée y, du vecteur y. Il suffit pour 
cela que tous les éléments de la première ligne de la matrice de transformation À 


soient égaux à n-1/?. Nous obtenons alors, compte tenu du fait que AT — 4-1, 
| À | = 1, l'expression 


F,(t)= | p(yTy) dy. 
n—i 
«<t 
“/ yTy-v? 


En posant y — pa, où p et « ont la même signification que dans l'exemple 10, 
et en tenant compte du fait que le jacobien de la transformation est dans ce cas 
égal à (—1)"*ipñ-1/a,, nous obtenons 


da... dan 
F,(t)=c À Se | [an] 
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où, pour des raisons de concision, nous avons posé 
œ 
c= | pp (p) dp. 
0 


En exprimant sous une forme explicite les limites d’intégration à l’aide des 
variables œ, ..., &h-1, nous obtenons l’expression 


d CE d > 
Fa(t)= | da: … nt —, 
: à , Vi... — où, 
_. ni ci Qa+...+ah-1<i-Qs 
1-a? 


L'intégration sur @e, . . ., Œn_1 est étendue à la sphère de dimensions (n — 2) 


de rayon V1 — a? et dont le volume est proportionnel à (1 — «2)(#-3)2. Dans 
ce cas, la fonction figurant sous le signe d'intégration est égale au centre de la 
sphère à (1 — «?)-1#. C'est pourquoi il est intuitivement clair que cette inté- 
grale par rapport aux variables &:, .. ., &n_, est proportionnelle à (1— «?)(7-3)/3, 
Pour démontrer cela rigoureusement, il suffit d'introduire de nouvelles variables 
d'intégration Ba = ay W1—at, ..., Bay = an1/V1— a. Alors nous 
obtenons, en notant par la lettre a la nouvelle constante globale obtenue en 
réunissant la valeur constante de l'intégrale sur les variables f., 
et le facteur constant c, l'expression 


cr Pn-1 


n—3 
Fe (t)=a | (1— x?) 2 da]. 
n—1 
t 
de 4 1-a U 
Enfin, en introduisant une nouvelle variable d'intégration += 
= œ V (nr —1)/(1 — «?), nous pouvons ramener la formule obtenue à la forme 


Fe(t)=a f (14) re 


n—1 


En dérivant cette formule, nous trouvons la densité de probabilité de la variable 
aléatoire T': 


f@=e (+). 


La constante a est aisément déterminée de la condition F+ (oo) = 1. Pour calculer 
l'intégrale, il suffit d'effectuer le changement de variables tg = £/ Vr=1 
et de prendre en considération le fait que F (1/2) — V x. Nous obtenons alors 


fa (D) =5n-1 ()= (a+). 


n —1 


(14) 


Vam-nr(#) 


2 


Cette distribution, que l’on rencontre fréquemment en statistique mathéma- 
tique, est appelée distribution de Student ou, plus simplement, distribution T. 


12—0244 
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La variable T définie par la formule (13) est appelée rapport de Student *). 
Le nombre # — n — 4 est appelé nombre de degrés de liberté [19, 115]. 

Il est utile de noter que la distribution du rapport 7 de Student ne dépend 
pas de la fonction p (u). Pour tout vecteur aléatoire X dont la distribution possède 
une symétrie pas la variable aléatoire 7 suit la distribution 7 (14). 

Exemple 13. Trouver, dans les conditions de l'exemple 12, la distri- 
bution conjointe des variables aléatoires U = X et S = XTX — nxi. 

Nous trouvons, d’après la formule (9), 


Fu, s)= .. | P (2Tz) az. 
x<u 
xTx-nxi<s 


En effectuant la transformation orthogonale de l'exemple précédent, nous obte- 


nons 
| u Vn 
Fa(u, s)= | dy1. |: .. | p (uTy) due ... dyn. 
_ D .uê+...+uh<s, 
Nous avons alors, après le changement de variables, ye = PpBs, . . ., Yn = PBh, 
fi +. B? = 4, ce qui nous conduit, comme dans l'exemple précédent, à 
expression 
‘ u Vrn Vs 
Faua=e À on | p7-p{u?+00 db. 
© : 0 


où c est déterminé de la condition 
Fe (oo, co) = 1. 


Démontrer que pour toute fonction p (v), les variables aléatoires U et S 
sont non corrélées et qu’elles sont indépendantes si et seulement si. 


p(v)}=(2rxD)-n/2 e-/2D, 


Exemple 14. Montrer que si la distribution conjointe du vecteur aléa- 
toire X à r dimensions et du vecteur aléatoire Y à m dimensions possède la 
propriété de symétrie sphérique dans l’espace à (nr + m) dimensions, alors la 
variable aléatoire 


nm (n+m—2) — 
Z = V— TX RE TT mYh (X—Y), (15) 


où | 
, n . 4 m 
x=— » Xp Y=—» Ya 
p=1 qæi 
suit une distribution T à r7—m—2 degrés de liberté: 
| k+1 
(2 
RESTES (1++) , k=n+<m—2. (16) 
va r(z) 


*)-Student est le pseudonyme du savant anglais W.S. Gosset. 
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Exemple 15. Soit X une matrice aléatoire n X m où m< n. X une 
matrice-ligne dont les éléments sont les moyennes arithmétiques des éléments 
des colonnes correspondantes de la matrice X : 


. n 
1 

p=— } Xqp (p=1,..., m). 

q=1 
La variable aléatoire 

T=Vn(n—1)XS-IXT, S=XTX —nXTX, (17) 
est appelée rapport de Student généralisé. Pour toute matrice aléatoire X dont 
Ja densité de probabilité est définie par la formule 
fi @) = p (tr Ca); | (18) 

où p (u) est une fonction quelconque (vérifiant évidemment la condition que la 
fonction fe) soit une densité de probabilité comportant éventuellement des 


fonctions Ô), C est une matrice symétrique définie positive et tr À est la trace 
de la matrice À, alors la densité de probabilité de la variable 7 est 


. (2) AN 
Mgr (%)r (=) im 1 (1+ ——) t (0). 


Sn=1, m (t)— 


(19) 


Dans le cas particulier où m = 1, cette distribution coïncide avec la distribution 
de la valeur absolue du rapport de Student (13). 

Exemple 16. Dans les conditions de l'exemple précédent, trouver la 
distribution conjointe du vecteur aléatoire (matrice-ligne) X et de la matrice 
aléatoire S. Montrer qu'elles ne sont pas corrélées quelle que soit la fonction 
pu) et qu’elles sont indépendantes si et seulement si p (u) — 
= V | CIr/(2mnm e-u/2, | 

Exemple 17.Soient X,et X, des matrices aléatoires n, X met n, X m 
respectivement, X.,et X. des matrices-lignes dont les éléments sont les moyennes 
arithmétiques des éléments des colonnes correspondantes des matrices X, et X;, 
Sn = XTXx — nXE Xp (k = 1,2), H = S, + S.. Montrer que si la distribution 
de la matrice X de dimensions (nr; + n3) X m, XT = [XiT X.7T], est définie 
par la formule (18), alors la densité de probabilité de la variable aléatoire 


D 
v=y/ entre D (rx) (NT XD (20) 


possède la densité de probabilité (19), où n = ny + no — 1. 

Exemple 18. Si dans les conditions de l'exemple 15 on a p (u) — 
— V | Cn/(2x)nme-u/3 et C — K-1, alors la densité de probabilité de la matrice 
S est définie par la formule 


n—1 n-m _, + trKs=1 


Wnm (s)=Cnm(2IKI) 2 ls 2 


dans le domaine des matrices définies poses s de l’espace des matrices carrées 
de dimension m et est égale à O0 en dehors de ce domaine. Dans la formule (21), 
on a noté respectivement par | X | et | s1 les déterminants des matrices Æ 


(21) 


12e 
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et s et 
1 


m(m—1) n—1 n—2 n—m : 
ni rer). 


La distribution définie par la densité de probabilité (21) est appelée distri- 
bution de Wishart. Elle joue un grand rôle en statistique mathématique [104 ,105]. 

Exemple 19. Si dans les conditions de l'exemple 15 on a S° = XTX, 
alors le rapport des déterminants des matrices S et S”, V = | S |/1 S’ |, a pour 
densité de probabilité l'expression 


r (+) nm m 


D Une 1&)1(4—0. (2) 


Cnm—= 


fe (v) = 


C'est une distribution f de po p = {(n — m)/2 et q = m/2 (exemple 2.9). 
Exemple 20. La fonction de répartition F; G) de la variable aléatoire 
scalaire X est continue. Trouver la distribution de la variable aléatoire Y — 
= F1 (X). 
Pour tout y € (0, 1] l'événement Y = F;, (X) << y aura lieu si et seulement 
si X <z— FT! (y). C'est pourquoi nous avons 


Fa) = F1 (Fi (y))=y si ye(0, 1]. 


Quand y < 0, l'événement Y = F, (X) < y est impossible, et quand y > 1 
c'est un événement certain. C'est pourquoi nous avons F, (y) = 0 quand y < 0 
ot Fa (y) = 1 quand y >> 1. Ainsi, pour toute fonction de répartition continue 
F, (x), la variable aléatoire Y — F, (X) suit une distribution uniforme dans 
l'intervalle [0, 1]. 

Nous laissons au lecteur le soin de trouver la distribution de la variable 
aléatoire Y — F, (X) dans le cas où la fonction de répartition F, (x) admet des 
discontinuités. Trouver la densité de probabilité de la variable aléatoire X 
dans ce cas. 


2.3. Réduction d’un vecteur aléatoire à un vecteur aux coordon- 
nées indépendantes. Considérons le vecteur aléatoire à n dimensions 
X = {X,, ..., X,} dont la fonction de répartition F, (x) de la 
première coordonnée et les fonctions de répartition conditionnelles 
Fo (xs | Ti, + +, Fn (Œn | Tir + + + Tn_1) Sont continues. Cette con- 
dition est remplie en particulier pour tout vecteur aléatoire dont la 
densité de probabilité ne contient pas de fonctions ôê. Dans de nom- 
breux problèmes de la théorie des probabilités et de ses applications, 
il s'avère utile de transformer un vecteur aléatoire de telle sorte que 
l’on obtienne un vecteur aux coordonnées indépendantes. 

A l'appui des résultats du point 4.4.5, ce problème se résout 
aisément pour des vecteurs normalement distribués en appliquant 
les décompositions canoniques, en particulier la décomposition 
suivant les vecteurs propres. 

> Pour transformer un vecteur aléatoire, dont la distribution 
est quelconque, vérifiant les conditions posées, on peut utiliser le 
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résultat de l’exemple 20. Introduisons les variables aléatoires 
Vi FX, Ye = Fo (Xe | Xa), + -. 
.….. ee == F, (4, | X;, ._. Xh-1). (23) 


Etant donné que F, (x1), Fo (ze | a), . - ., Fan (Œn | Zns + + + Æn-1), 
considérés comme des fonctions du premier argument, sont des 
fonctions de répartition continues, alors, en vertu de ce que nous 
avons démontré dans l'exemple 20, la variable aléatoire Y, et toutes 
les variables aléatoires suivantes Ÿ,, indépendamment des valeurs 
Yi + - +» Yh-1 E 0, 1] des variables précédentes Y,, ..., Y,: 


k — 2, ..., n), sont distribuées uniformément dans l'intervalle 
[0, 1]. Ainsi, la distribution conditionnelle de chaque variable Y, 
ne dépend pas des valeurs y,, ..., y:_, des variables précédentes. 
Par conséquent, la densité de probabilité conjointe des variables 
Yi, ..., Y, est égale au produit de leurs densités de probabilité. 
Il en découle, en vertu du point 4.2.3, que les variables aléatoires 
Y,, ..., Y, sont indépendantes. < 


Nous voyons ainsi que les formules (23) donnent la solution du 
problème posé en définissant une transformation du vecteur aléatoire 
X telle, que l’on obtient un vecteur Y dont les coordonnées sont 
indépendantes et, de plus, distribuées uniformément sur l'intervalle 
[0, 1] (il en découle que le vecteur Y est uniformément distribué 
dans un cube à nr dimensions de côté [0, 1] sur tous les axes). La 
transformation inverse définie par les formules récurrentes 


Xi= FT (Vi, Xe = F3 (Vol Xi... 
Len La = FF lXn een Xauh, (4) 


permet d'exprimer les coordonnées du vecteur X à l’aide des variables 
aléatoires Ÿ,, ..., Ÿ,, uniformément distribuées dans l'intervalle 
[O, 11]. 

Nous pouvons maintenant trouver une transformation du vecteur 
aléatoire À telle, que l’on obtienne un vecteur aléatoire Z dont les 
coordonnées sont indépendantes et dont chacune possède une fonction 
de répartition choisie à l'avance. 

> Supposons que G; (21), - .., Gn (z) Sont des fonctions de ré- 
partition strictement croissantes. Définissons les coordonnées du 
vecteur Z par les équations 


Gr (Z:) = Ye (X = 4, CRCEET n). (25) 
où Ÿ,,..., Ÿ, sont des variables aléatoires définies par les formules 
(23). Comme les fonctions G;,. . .,G, sont, par hypothèse, strictement 
croissantes, alors les formules (25) établissent une correspondance 
biunivoque entre les variables Ÿ,,..., Ÿ,, d’une part et les variables 
Zis + + +, Zn d'autre part. Il est évident que les variables aléatoires 
Z1, - - ., Z, sont indépendantes puisqu'elles sont des fonctions des 


variables aléatoires indépendantes Ÿ,, ..., Ÿ, (point 4.2.5), ct 
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que la fonction de répartition de la variable Z, est G, (z:). Nous 
avons en effet 


P(Zr < 2») = P (Gr (Zn) < Gr (z:)) = 
= Pr < Gn (2x)) = Gn (2x). 


Ainsi, les formules (23) et (25) définissent une transformation du 
vecteur aléatoire X telle, que l’on obtient un nouveau vecteur aléa- 
toire Z à coordonnées indépendantes Z,, ..., Z, possédant des 
fonctions de répartition fixées à l'avance G,; (21), . .., G, (z,). La 
transformation inverse définie par les formules récurrentes 


X1 = F5 (Gi (Zi), Xe = F3 (Go (Ze) | Xi), - - + 
 Àn = Fr (Gn (Zn) | Xys .. Ân-1) (26) 


exprime le vecteur X en fonction du vecteur Z à coordonnées indé- 
pendantes possédant des fonctions de répartition données. On a 
montré sur la fig. 20 la 

correspondance entre Îles } 
valeurs x, et z, des varia- 1 
bles aléatoires X, et Z:2. 

Remarquons que dans Y=M(*x1X3...,x4.,) 

le cas où la fonction de 
répartition de l’une des 
variables X,, ..., À, con- 
serve une valeur constante 
sur un intervalle quelcon- 
que, alors la correspondance 
biunivoque entre les vec- xx 0 Zk 
teurs À et Ÿ et les vecteurs Fig. 20 
X ct Z n'est plus valable. 
Dans ce cas, les formules (24) et (25) ne définissent pas les valeurs z du 
vecteur À pour certaines valeurs y du vecteur Y. Toutefois, cela n'est 
pas très important car chaque intervalle de constance de la fonction 
de répartition représente un ensemble de probabilité nulle que nous 
pouvons ne pas prendre en considération. Par ailleurs, on peut con- 
venir dans ce cas que les formules (24) et (25) pour les y correspon- 
dants définissent tout l'intervalle de constance. de la fonction de 
répartition. | 


$ 3. Densité de probabilité d’une fonction 
d’un argument aléatoire 


3.1. Méthode de comparaison des probabilités. Nous avons appris, 
au paragraphe 2, à trouver la fonction de répartition d’une fonction 
d’un argument aléatoire, puis, en dérivant cette fonction de réparti- 
tion, à déterminer la densité de probabilité, si, évidemment, elle 
existe. Il est toutefois rationnel de trouver directement la densité 
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de probabilité d’une fonction d’une variable aléatoire à partir de la 
densité de probabilité de la variable-argument. Il faut pour cela 
imposer à la fonction o (x) des restrictions complémentaires car la 
mesurabilité n’est pas suffisante. Nous supposerons que la fonction 
q (x) possède des dérivées premières continues par tranches par rap- 
port à toutes les coordonnées du vecteur x et qu’elle n’est pas con- 
stante sur aucun ensemble de valeurs de l’argument x possédant une 
probabilité différente de 0. 

> Conformément au principe général du point 2.1, la probabilité 
d'appartenance de la variable aléatoire Ÿ — œ (X) à un ensemble 
quelconque B est égale à la probabilité d'appartenance de la variable 
aléatoire X à l’image réciproque de l'ensemble B, À , = {z: (x) € B}. 
En exprimant cette probabilité à l’aide de la densité de probabilité 
f. (x) de la variable aléatoire À, nous .obtenons 


P(YEB)=P(p(X)EB=P(XEAr)= | fi(t)dz. (27) 
A 
Nous avons par ailleurs ' 


P(YEB)= | ja (u) ay, (28) 
B 


où 2 (y) est la densité de probabilité inconnue de la variable aléatoire 
Ÿ. La comparaison des formules (27) et (28) montre que pour déter- 
miner f: (y) il suffit de transformer par un changement de variable 
approprié l'intégrale (27) en une intégrale étendue au domaine B. 

Supposons tout d’abord que les vecteurs À et Y — œ (X) soient 
de même dimension »# et que l'équation y = œ (x) possède, pour tout 
y, une solution unique z dans le domaine des valeurs possibles de la 
variable aléatoire À (dans le domaine où la densité de probabilité 
f, (x) est différente de 0). Pour cela, il est nécessaire et suffisant que 
le jacobien des coordonnées du vecteur q@ (x) par rapport aux coor- 
données du vecteur x conserve son signe dans le domaine où f, (x) > 
> 0, et ne s’annule qu’en certains points isolés de ce domaine. La 
fig. 21 illustre ce fait pour le cas des variables scalaires À et Ÿ. 
Nous aurons alors, en effectuant dans la formule (27) le changement 
de variables y = (x), x = @-! (y) et en prenant en considération 
que le domaine d'intégration À, se transformera en B, l’expression 


P(YEB)= | fi(o""(u)) 17 (y) 1 ay, (29) 
B 
où J (y) est le jacobien des coordonnées du vecteur x = @-! (y) 
par rapport au vecteur y: 


dpi! d@;! 
A(pr!, ..., a!) 91 OYn 
Jr nl — 
() d(Y1s °-.r Un) 0h! On! (30) 


OY: 0 0Yyn 
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(la dérivée de la fonction @-! (y) dans le cas de variables scalaires 
X et Ÿ). En comparant (29) et (28) et en prenant en considération le 
fait que ces deux formules sont valables pour tout domaine B, nous 
obtenons l’expression suivante pour la densité de probabilité de la 
variable aléatoire Ÿ =  (X): 


fa @) = fà (@- ()) 19 G) |. (31) 


Supposons maintenant que la dimension m du vecteur Ÿ — œ (X) 
soit inférieure à la dimension x du vecteur X, m << n, et que l’équa- 
tion y — p (x) admette pour tout y une solution unique par rapport 


Fig. 21 


à m coordonnées quelconques du vecteur x dans le domaine où 
f1 (&) >> 0. Désignons par x’ le vecteur formé par ces m coordonnées, 
par x” le vecteur formé par les nr — m coordonnées restantes du 
vecteur z. Notre équation s’écrira alors sous la forme y = œ (x’, x”). 
Supposons que z’ = p-} (y, x”) soit la solution de cette équation par 
rapport à zx’. En effectuant, dans (27), le changement de variables 
z" = pl (y, x”), nous obtenons exactement de la même façon que 
dans le cas précédent l'expression 


PyeEB)= (a [hot æ,#)1J@æ)1&, (2 
B œ 


où J (y, x”) désigne le jacobien des coordonnées du vecteur zx’ — 
= p-l(y, x”) par rapport aux coordonnées du vecteur y: 


_ 9(pr',-.., Fm) 
TG EG um) ” 
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Nous trouvons alors en comparant (32) et (28) la densité de probabilité 
de la variable aléatoire Y : 


h@= | fit u), u)1J(, u)|du. (4) 


Cette formule peut être obtenue également par une autre voie. 
Complétons le vecteur Ÿ jusqu’à ce que l’on forme un vecteur à » 
dimensions, en lui ajoutant les coordonnées Yu = X map - -- 

.., Yn = À,; nous ramenons alors le problème au cas précédent. 
Après avoir déterminé, conformément à la formule (31), la densité 
de probabilité conjointe des vecteurs Y et X" = {Xm4,,..., X,}, 
on peut trouver la densité de probabilité du vecteur YŸ à l’aide de la 
formule (4.9) en intégrant par rapport à x” sur le domaine de toutes 
les valeurs possibles du vecteur aléatoire X”. 

Si les vecteurs À et Ÿ — œ (X) sont de même dimension n et si 
l'équation y — œ (x) possède, pour chaque y, un ensemble fini ou 
dénombrable de solutions par rapport à x dans le domaine des va- 
leurs possibles du vecteur X, alors il convient de partager le domaine 
d'intégration À, en parties telles que dans chacune d'elles cette 
équation n'ait pas plus d’une solution et, ensuite, d’effectuer le 
changement de variables adéquat dans chacune des intégrales ainsi 
obtenues. Nous laissons au lecteur le soin de trouver la densité de 
probabilité de la variable aléatoire Ÿ = œ (X) par cette voie. Nous 
résolverons ici ce problème par la méthode plus commode, dans 
ce cas précis, de comparaison des éléments de probabilités. 

3.2. Méthode de comparaison des éléments de probabilités. La 
méthode de comparaison des éléments de probabilités est basée sur 
le choix en qualité d'ensemble B d’un élément infiniment petit dy 
de l’espace des valeurs de la variable aléatoire Ÿ et la recherche de 
la probabilité d'appartenance de la variable Y = œ (ZX) à cet élé- 
ment. Le facteur de dy sera dans ce cas la densité de probabilité 
recherchée de la variable aléatoire Ÿ = œ (ZX). 

> Supposons que les vecteurs À et Ÿ soient de même dimension 
n et que l’équation y = œ (x) admette pour chaque y un ensemble de 
solutions qi! (y), i € Z (y) dans le domaine des valeurs possibles de 
la variable X (c'est-à-dire dans le domaine où f, (x) = 0). La fig. 22 
illustre pour le cas des variables scalaires X et Y (sur la fig. 22 nous 
voyons que Z (y) = {1, 2, 3, 4, 5} et Z (y) = {1, 2, 5}). Dans ce 
cas, l’élément de probabilité jf, (y) dy est égal à la somme des élé- 
ments de probabilité correspondant à tous les éléments dx;, i € Z (y) 
de l’espace des valeurs de la variable À dont la réunion constitue 
l'image réciproque de l'élément dy (fig. 22): 


f2 (y) dy = | > fa (xs) dure 
EI (v) 
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En portant ici les expressions de zx; en fonction de y,.x; = œ;! (y) 
et les expressions des éléments dx; en fonction de dy, dr; = | J'; (y) | dy, 
où J'; (y) est le jacobien des coordonnées du vecteur zx; = @;? (y) par 
rapport aux coordonnées du vecteur y (la dérivée de la fonction 
«p;! (y) dans le cas des variables scalaires À et Ÿ’), nous obtenons, 
après avoir simplifié sur dy: 


hG)= 2 RPG) I. € (35) 
EI (v) 


La méthode de comparaison des éléments de probabilité repré- 
sente ainsi la forme condensée de la succession suivante d'opérations 
parfaitement rigoureuses : 

1) calcul de la probabilité d'appartenance de la variable Y — 
— p(X) au volume infiniment petit Ay de son espace de valeurs, 


dx, dx dxs dxa dxs x 


Fig. 22 


contenant le point donné y, à l’aide du théorème intégral de la 
valeur moyenne; 

2) calcul, par cette même voie, de la probabilité d'appartenance 
de la variable aléatoire X à la réunion des volumes élémentaires 
Âx;, i € I (y) de son espace de valeurs représentant l’image réciproque 
de Ay, 

.U Ar =op"t(Ay); 
EI (v) 

3) égalisation des probabilités ainsi obtenues; 

&) recherche des expressions des volumes élémentaires Az, en 
fonction de Ay; 

5) division de l’égalité obtenue par Ay; 

6) passage à la limite pour lequel le volume élémentaire Ay 
se resserre en un seul point y avec la démonstration de l’existence de 
cette limite. 
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<« Dans le cas où le vecteur Ÿ = (À) est de dimension m << n 
et où l’équation y = œ (x) n’admet pas de solution unique par rapport 
aux m coordonnées du vecteur x, quel que soit le choix de ces coor- 
données, il convient de compléter le vecteur Ÿ jusqu’à ce que l’on 
obtienne un vecteur à x dimensions en ajoutant les coordonnées 
Ymt1 = ZA mt Yn = Àh, de calculer la densité de probabilité 
du vecteur à rz dimensions ainsi obtenu à l’aide de la formule (35), 
puis d'intégrer par rapport au vecteur u = {Ym+1, - : ., Un}, afin 
d'obtenir la densité de probabilité de la variable aléatoire Y. Nous 
obtenons en définitive la formule 


h@= | D Ho @ u), w)1J:(U, w)ldu, (86 

0 iEZ (y, u) 
où p;l (y, u), i E I (y, u) sont les solutions de l'équation y = (x) 
par rapport au vecteur x’ = {zx,, ..., x} dans le domaine des 


valeurs possibles de la variable ZX et J; (y, u) le jacobien des coordon- 
nées du vecteur x! = j! (y, u) par rapport aux coordonnées du vec- 
teur y. 

> Considérons enfin le cas où le vecteur Ÿ = œ (X) est de di- 
mension m > n. Dans ce cas, le vecteur Ÿ peut être représenté comme 
l'ensemble d’un vecteur à nr dimensions Ÿ” = ®, (X) et d’un vecteur 
à(m — n) dimensions Ÿ” = @, (X). Lors de cette partition du vecteur 
Y (de son remplacement par les projections sur deux sous-espaces 
réciproquement complémentaires), il convient d'inclure dans Ÿ” 
les coordonnées du vecteur Ÿ telles que l'équation y” = ®, (x) admette 
une solution unique x dans le domaine des valeurs possibles de la 
variable ZX, si, évidemment, cela est possible pour un choix quel- 
conque de x des m coordonnées du vecteur Ÿ. Si cette équation admet 
une solution unique x = œi! (y'), alors la densité de probabilité 
du vecteur aléatoire Ÿ” peut être calculée à l’aide de la formule (31). 
En ce qui concerne le vecteur Ÿ”, nous obtenons, en portant dans 
Y" = p: (X) l'expression À = pi! (Ÿ”}, la formule Y” = p, (p1! (Y"}). 
Ainsi, Ÿ” représente une fonction bien déterminée de la variable 
aléatoire Ÿ” et, par conséquent, la densité de probabilité condition- 
nelle de Ÿ” pour une valeur fixée y’ de la variable Ÿ’ représente une 
fonction Ô (y” — p. (1 (y’))). En vertu du théorème du produit 
des densités de probabilité (4.23), la densité de probabilité du vecteur 
aléatoire composé Ÿ s'exprime, dans ce cas, par la formule 


fa Y) = f1 (pt (y) 1 J 7) 1 6 y” — pa (pi (y’))). << (37) 


Si l’équation y’ = , (x) possède, pour tout choix de r de m 
coordonnées du vecteur y, un ensemble de solutions ®3i (y'), à € I (y’) 
dans le domaine des valeurs possibles de la variable X, alors le vecteur 
Y” pour une valeur donnée y’ du vecteur Ÿ”’ possède un ensemble 
discret de valeurs possibles @: (pïi (y’)), à € Z (y‘), dont les proba- 
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bilités sont définies par la formule 


p,=—h Er HONG! 
DO faln)dzn D) f1(qtk(y') Ja (y) 1 
REI (y°) RET (y”) 


Par conséquent, la densité de probabilité conditionnelle du vecteur 
Y” pour une valeur donnée y’ du vecteur Ÿ” est égale, conformément 
à (2.24), à 


D fatpit (y) | Ji (y) 1 5 (y”— pa (pt? (y”))) 


1€ (v°) 
D hier) 1 Ji) 
iET (y) 
En multipliant cette densité de probabilité conditionnelle de la 
variable aléatoire Ÿ” par la densité de probabilité de la variable Y” 
calculée à l’aide de la formule (35), nous trouvons la densité de 
probabilité du vecteur aléatoire Y : 


fe W= À, fa Cor (y) 1 Ji (y) 1È (y — pa(pi1 (y”))) (38) 


Exemple 21. Trouver la distribution de la puissance s-ième de la 
variable aléatoire X, Y — X: (s est un nombre entier). 

Quand le nombre s est impair, l'équation y — r: possède une solution réelle 
unique x = yl/s pour tout y. C'est pourquoi la densité de probabilité de la 
variable Y = Xs peut être trouvée à l’aide de la formule (31): 


1 


—— | 


= hu. 


Quand s est pair, l'équation y — r* possède deux solutions réelles x == +yl/6 
quand y > 0 et aucune solution quand y << 0. C’est pourquoi, pour trouver la 
densité de probabilité de la variable Y = Xs il faut appliquer la formule (35). 
Nous obtenons, en définitive, l'expression 


nn ne 
RO=— th )+h y y 1) 


Dans le cas particulier d’une variable aléatoire X de densité de probabilité 


1,23 
—— Xx° 
f1 (2) =— 1 (x) mle | 
mn = À 
2e no) 
et où Ÿ — X2? la formule obtenue devient 
n Î 
{ 571 TZ 
Ja g= 0 y e 
22r(+) 


Ainsi, dans ce cas, la variable Y = X*° suit une distribution aux (11). C'est 
pourquoi la distribution d'une variable aléatoire X dont la densité de probabilité 
est cette fonction est appelée distribution du #. 
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Exemple 22. Trouver la densité de probabilité de la variable aléatoire 
Y = cos X pour une distribution uniforme de la variable X dans l'intervalle 


(—x, n). 
Dans ce cas, pour chaque valeur de y, | y | << 1, la fonction inverse possède 
deux branches: œil (y) = arccos y, @s! (y) = —arccos y. La formule (35) 


nous donne alors (fig. 23) 
1(1— 171) 
r Vip | 


La distribution des probabilités, définie par cette formule, est appelée Loi de 
distribution d'arcsinus. Elle est caractéristique pour les erreurs d'un appareil 


Îe (y) = 


Fig 23 Fig. 24 


servant à mesurer les angles dont le limbe (le disque sur lequel est portée l'échel- 
le) est fixé de façon excentrée par rapport à l'axe de rotation du dispositif de 
visée. 
Exemple 23. Trouver la densité de probabilité de la fonction 
Y = X31—RKkX 


de la variable aléatoire X uniformément distribuée dans l'intervalle (0, a}, 
k < a. 
Dans ce cas, la fonction inverse admet deux branches 


Pi o=+y/ Lu TR Dei E+y 


si —k?/4 << y < 0 et une seule (la première branche) si 0 << y << a° — ka 
(fig. 24). C'est pourquoi nous aurons deux termes dans le second membre de la 
formule (35) si —k3/4 << y < 0 et le seul premier terme pour 0 << y << a° — ka. 
Nous obtenons, en définitive, 


2 gi y <O0 

a Vk3+4y 4 
fe (y) = n 

——— si 0 3— ka. 

a V ki Lay RS : 


En dehors de l'intervalle (—k?/4, a? — ka), nous avons f. (y) = 0. 
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Exemple 24. Dans les conditions de l'exemple 11, trouver la distri- 
bution de la variable aléatoire 


YA KE 
ME Le 


Etant donné que l'équation f = k:/l pcssède, pour tout {, une solution unique 
z = lf/k, alors, la densité de probabilité g (jf) de la variable F peut être détermi- 
née à l’aide de la formule (31). En remplaçant dans cette formule fj, (x) par 
l'expression (12) de la densité de probabilité f, (z) de la variable Z, nous obtenons 


LA ( k+1 ) | _kH 
1 \2 9 gi I 2 
sO=ine(s) ie (its) 10 @ 
r(r)r(>) 

2 2 
Cette distribution également se rencontre souvent en statistique mathématique; 
on l'appelle la distribution F à Let k degrés de liberté. La distribution de la variable 
U = In F/2 dans le cas particulier où X et Y sont des variables aléatoires indé- 
pendantes suivant respectivement une distribution du #° à k et L degrés de liberté 
a été découverte par Fischer [112, 113]. La distribution de la variable F, dans 
les mêmes conditions, a été étudiée par Snedécor [99]. | 

Si q (t) = ce-t/?, il découle du résultat obtenu, pour un choix adéquat de 
c, que le rapport de deux variables aléatoires indépendantes suivant une distribution 
du y° divisées par les nombres de degrés de liberté correspondants suit une distribution 
. avec ces mêmes degrés de liberté. Cela explique une large diffusion de la dis- 
tribution F 


I] est intéressant de constater que les cas limites de la distribution F pour 
k = o et pour = © représentent la distribution y des variables F et F-È 


respectivement : 


L'Au2 jure 
ho (D= (+) LS 

k \A/2 f-h/2-1 
en) (5) Ko. 


Dans le cas limite où k — LI — ©, nous avons 
foo, o (f) = 6 (f — 1). 
E xemple 25. Dans les conditions de l'exemple 15, la variable aléatoire 


RM ps 20") Xs-1XT 


mod) 


suit, indépendamment de la forme de la fonction p (x), une distribution F à 
m et n — m degrés de liberté f,, n-m ()- 

Exemple 26. Si la variable aléatoire F suit une distribution F, fin O), 
alors la Vaiable V = (4 + 1F/k)-1 suit une distribution $ de paramètres p — 
= k/2, q = 1/2 (ex. 2.9) et la variable W = F (k/1 + F)-1 suit une distribution 
B de paramètres p = Î/2, q — k/2. 

Il en découle que si la variable aléatoire V suit une distribution B de para- 
mètres. p, q, alors la variable F = (k/l) V (4 — V)-1 suit une distribution F, 
fop. 2g O), et la variable G = k (1— V)/IV suit une distribution F, og. 2p (£)- 

En utilisant ces relations et la relation entre F et T de l'exemple 58. on peut 
calculer la fonction de répartition et la densité de probabilité de la distribution F 
et de la distribution 7 généralisée (49) à l'aide du pr BDTR de calcul 
de la fonction de répartition et de la densité de probabilité de la distribution 


[84]. 
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Exemple 27. Trouver la distribution des coordonnées polaires d'un 
point du plan À, 6, si l’on connaît la densité de probabilité f, (x. y) de ses. 
coordonnées cartésiennes X, ŸY. 

Nous avons, dans ce cas, 


R=qUX, Ne VAT, O=qx, Varie, 


et cela de sorte que l'angle 6 se trouve dans le premier quadrant quane X>0, 
i 


ŸY > 0, dans le deuxième quadrant si X << 0, Y >> 0, dans le troisième quadrant 
si X < 0, Y << 0 et dans le quatrième quadrant si X > 0, Y < 0. Les équa- 
tions r = Vz1+ y, 60 = arc te (y/x) ont une solution unique z = rcos8, 
y = r sin 6 pour tous les r > 0, 6 € [0, 2x). C'est pourquoi nous avons 

J(r, O)= cos0 —rsin6 


sin 0 r cos 0 


et la formule (31) donne 
fa (r, 9) = rf1 (r cos 6, r sin 6). 
Nous trouvons alors, par intégration sur 8 ou sur r, respectivement la densité 


de probabilité f, (r) du rayon vecteur R du point aléatoire et la densité de pro- 
babilité f, (8) de l'angle polaire 6: 


27 
fa (r)=7r | {(r cos 6, r sin 6) 46, 
0 
fa (0) = | rf{(rcoS 6, rsin 6) dr. 
0 


Dans le cas particulier d'une distribution à symétrie circulaire f (zx, y) — 
= h (1x? + y?), et les formules obtenues s'écrivent | 


fa ()=2nrh(r®), fe (6)= | rh (r2) dre 
0 


Ainsi, dans le cas d'une symétrie circulaire de la distribution sur le plan, 
l’angle polaire est distribué uniformément dans l'intervalle [0, 2x) et, par 
conséquent f, (8) — 1/25, quand 6 € [0, 2x). Par ailleurs cela est clair à partir 
des considérations intuitives. 

Dans le cas d'une distribution normale à symétrie circulaire h (u) — 
= (2xD)-le-u/2D, la formule pour f, (r) s'écrit 


fat=e-"#/2D, r>0. 


Cette distribution est appelée distribution de Rayleigh. 

Nous obtenons, de te analogue, dans le cas d'une distribution normalc à 
symétrie sphérique dans l’espace à 3 dimevusions pour le rayon vecteur R, la 
distribution de Maxwell: 


fa (r)= V 2/xD3 rie" /2D r>0, 


Si l'a distribution sur le plan possède une symétrie circulaire de centre décalé 
par rapport à l'origine des coordonnées, alors, en choisissant de façon adéquate 
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des axes de coordonnées, nous aurons f(x, y) — h ((z — a)? + y?) et 
2x 
fa(r)=r | h (r?—2ar cos 6 + a?) d8. 
0 


fa (0) = | rh (r3— 2ar cos 6 + a?) dr. 
0 


Dans le cas particulier d’une distribution normale, nous avons h (u) — 
= (2xD)-le-/2D et la formule pour j, (r) s'écrit 


= ——— C08 6 
Lr 2D D 
JSF) es xD je 


Dans cette formule l'intégrale ne peut se ramener à des fonctions élémentaires. 
On peut l’exprimer à l’aide de la fonction de Bessel : 


1 [ 1 € 
Lo (u)=— | eu cos °d8=— | eu cos 6 d8. 
0 0 
Nous obtenons alors, en définitive, 
= r2+az 
r 2D ar 
hi=ge © LT). (40) 


La distribution définie par cette formule est appelée distribution non centrée 
de Rayleigh. 
Exemple 28. Trouver la densité de probabilité du vecteur aléatoire 
Y = AX + c, si l'on connaît la densité de pars f1 (x) du vecteur X. 
Dans le cas où les vecteurs X et Y sont de même dimension n et où le rang 
de la matrice À est égal à n, l'équation y — Az + c a une solution unique 
z = A7 (y — c) et la formule (31) donne 


fa) = fs (A (y— 0), 


l'AFTE 


où | À | est le déterminant de la matrice À. 
Dans le cas particulier d'un vecteur X normalement distribué, nous obtenons 


{$ 4.4) 


1 


OUVERTE 


exp {——+ (xT— m1) K°1 G—m2)} 


et la formule obtenue conduit à l’expression 
1 
——_———_—_—_—_—_—_—_—_____—_—_ X 
V'@n)"IA:1 IA 
x exp {—-+ (yT—eT—mTAT) AT TEA (y—e— Ama)} 


Îe (y) = 
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C'est une distribution normale telle que l'espérance mathématique du vecteur 
Y est égale à m, = Am, + cet sa matrice de variances-covariances est égale à 


K, = AK T en pleine conformité avec les formules (3.49) et (3.50). 

"Nous laissons au lecteur le soin d'étudier le cas où la dimension du vecteur 
Y et le rang de la matrice À sont égaux à m << n, le cas où la dimension du vecteur 
Y est égale à m < net le rang de la matrice À cest égal à r < m, et le cas où 
m > nr. Démontrer que dans tous ces cas, pour une distribution normale de 
f (x), la distribution f, (y) est aussi normale (c’est une distribution normale 
dégénérée quand r << m et quand m > n). 

Ainsi, Les variables aléatoires obtenues par des transformations linéaires quel- 
conques des variables aléatoires normalement distribuées sont normalement distri- 
buées. Ce résultat important a des conséquences importantes pour la théorie des 
probabilités et ses applications. 11 en découle en particulier que les coefficients 
de la décomposition canonique d'un vecteur aléatoire normalement distribué, 
en particulier ses décompositions à l'aide des vecteurs propres, sont distribuées 
normalement (leur distribution conjointe est normale). Et comme la non-corré- 
lation des coordonnées d’un vecteur aléatoire normalement distribué entraîne 
leur indépendance, alors les cocfficients de la décomposition canonique d'un 
vecteur aléatoire normalement distribué sont toujours indépendants. 

11 découle des résultats de cet exemple la généralisation suivante du théorè- 
me du paragraphe 4.4: Les projections d'un vecteur aléatoire normalement distribué 
sur tout sous-espace sont distribuées normalement. 

Exemple 29. Le vecteur aléatoire X est normalement distribué et 
le rang r de sa matrice de variances<ovariances Æ, est inférieur à sa 
dimension nr. Trouver la densité de probabilité du vecteur X. 

Nous savons ($ 3.3) que dans ce cas le vecteur X suit une distribution 
normale dégénérée (4.62) qui est entièrement concentrée dans le sous-espace à r 
dimensions, formé par les r premiers vecteurs propres de la matrice K,, translaté 
d’un vecteur m, (si m, n’appartient pas à ce sous-espace à r dimensions). Confor- 
mément aux résultats de l’exemple précédent, la distribution du vecteur X 
peut être exprimée à l'aide de la distribution dans ce sous-espace. 

Soit ® une matrice dont les colonnes sont, comme au point 4.4.6, les vec- 
teurs PIRE orthonormés ®;, ...,®p, de la matrice K.. Cette matrice est ortho- 
gonale, de sorte que son déterminant est égal à 1, | © | = 1. A l'appui des 
résultats de l’exemple précédent, nous pouvons affirmer que les variables aléa- 


toires U, = pi (X — m,) (k = 1, ...,r) sont indépendantes, ont des espéran- 
ces mathématiques nulles ct des variances égales respectivement aux r valeurs 


propres différentes de zéro, À, . ... À. de la matrice K,. C'est pourquoi la dis- 
tribution du vecteur X° = X — m. dans le sous-espace à r dimensions formé 
par les vecteurs propres q1, . .., p. est définie par la densité de probabilité 


{——+ 5) 
l'AC NE 2 | An J° 
Les variables aléatoires Ur — pl X(k=r+1,...,n) possèdent desespéran- 


ces mathématiques nulles et des variances nulles, de sorte qu'elles sont égales à 
0 avec une probabilité 1. C’est pourquoi leurs densités de probabilité sont des 
fonctions 6, Ô (u,) (k = r + 1,...,n). Par conséquent, la densité de probabilité 
du vecteur à r dimensions U — [U ... U,]7 est définie par la formule 


1 1 à À 
Per (07 2 st) … stunr 


h=1 


h (u)= 


C'est une distribution normale dégénérée dans l’espace des valeurs du vecteur 
aléatoire X dont les axes de coordonnées sont les directions des vecteurs propres 


13—024 
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de la matrice X.. En utilisant la formule (31), nous trouvons la densité de pro- 
babilité du vecteur aléatoire X : 


r T 
_ 4 . 4 PT PRVy … 
fe De exp{ ÿ (z m..) 2 DE a (x mx)} X 


X 6 (pes (r—ma)) .. 8(pR(z— mx). (41) 


Nous avons obtenu une autre forme de la distribution normale dégénérée, diffé- 
rente de (4.62). 

Nous laissons au lecteur le soin de démontrer que dans le casoù r=n 
la formule (41) coïncide avec la formule (4.51) définissant la densité de probabi- 
lité d’un vecteur aléatoire à n dimensions normalement distribué. 

Exemple 30. Soient X ct Y deux variables aléatoires (scalaires ou 
vectorielles de même dimension) de densité de probabilité conjointe f, (r, y). 
Trouver la densité de probabilité de leur somme Z — X + y. 

Comme l'équation z = x + y admet une solution unique pour tout 2, 
aussi bien par rapport à z que par rapport à y, on peut utiliser la formule (34). 
Nous obtenons alors 


R@= | hes-aga [heu na. 2 


Dans le cas particulier de composantes indépendantes, nous avons 
fa (&s y) = 81 (x) ge (y) et 


00 


Lo= amené | ot) ee té. (3) 


Les intégrales de ce type sont appelées conrolutions des fonctions g, et ge ct 
notées £g1 * £e. Ainsi, la densité de probabilité de la somme des variables aléatoires 
indépendantes est égale à la convolution des densités de probabilité des composantes, 
Je = 1% 82- 

| Comme la somme des variables non aléatoires ne peut être une variable 
aléatoire, ct que toutes les variables non aléatoires possèdent une densité de 
probabilité représentant une fonction 6, il découle de (43) que la convolution 
de deux fonctions 6 est une fonction 6: 


Co 


| Ô(z—a) 0 (2—2z—b) dr == 0 (:—a—b). (44) 


Cette propriété de la fonction 6 peut également être établie à partir d'un passage 
à la limite définissant la fonction 6 dans la définition donnéec dans l’annexe 1. 

11 découle du résultat général de l'exemple 28 que la convolution de deux 
distributions normales représente une distribution normale. Nous laissons au 
lecteur le soin d'obtenir ce résultat à partir de la formule (43). 

Exemple 31. Trouver la densité de probabilité de la somme de deux 
variables aléatoires indépendantes suivant des distributions du #° à k et Z degrés 
de liberté respectivement (exemple 10, formule (11)). 
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Nous avons alors dans ce cas 


2  k l | 
{ ii 1] —— X-— (2x) 
+ RS 
2 rfi) r 1\5 
2 PTS | 2 | 
k+! 1 1 k 
1 sp —-1 _ 
= pu G) z © e © {2 ({—u)? due 
0 


Cette dernière intégrale représente la fonction f: 


PF (P)T (9) 


F(Pp+9) ° (45) 


1 
up (1— ut du=B(p, = 
0 


En utilisant cette formule, nous obtenons 


Ainsi, La somme des variables aléatoires indépendantes distribuées suivant une Lot 
du %* suit également une loi du y? avec un nombre de degrés de liberté égal à la somme 
des nombres de degrés de liberté des composantes. 

Exem £ le 32. Trouver la distribution de la somme Z des variables 
aléatoires indépendantes X et Y, distribuées selon une loi de Poisson de para- 
mètres À et u respectivement. 

Nous avons, dans ce cas, 


à M eh 
ne) Te h(—h, et)= D À e-6(y—h) 
k=0 h=0 
et la formule (43) nous donne 
Auh e 
fs (2) = D sn | Ô(z—k)Ô(2—7—h) dr 
k, h=0 = 00 


O0 

” ARph_ 3 

= D use pp, 
h, h=0 


13% 
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En réunissant les termes correspondant aux valeurs identiques de la somme 
k+h=—= m et ayant en vue que 


m 
ph 4 ml umo Hp 
2 HR — ml Da PE ET 
h+them k=0 


nous obtenons l'expression 


O0 à : ns 
= D ER eau my. 
m=0 


Ainsi, la somme des variables aléatoires indépendantes suivant une loi de Poisson 
est également distribuée suivant une loi de Poisson dont le paramètre est égal à la 
somme des paramètres des distributions des composantes. 

Exemple 33. Le vecteur X suit une distribution normale possédant 
une symétrie sphérique dans l’espace à r dimensions et les variances de toutes 
les coordonnées du vecteur X sont égales à 1. Trouver la distribution de la variable 


aléatoire Y — XTAX. où À est une matrice symétrique définie non négative 
de rang r << n, possédant la propriété d’idempotence 4? = 4. 

La matrice À représente une matrice de projection orthogonale sur un cer- 
tain ‘sous-espace à r dimensions. Etant donné que la projection d’un vecteur 
normalement distribué sur tout sous-espace est normalement distribuée, et cela 
de sorte que la symétrie sphérique de la distribution est conservée lors de la 
DEOIESUOR orthogonale. il devient clair intuitivement, à l'appui des résultats de 

"exemple 10, que la distribution de la variable Y est une distribution du x àr 
degrés de liberté. Pour démontrer rigoureusement cette affirmation, réduisons 
la matrice À à la forme diagonale à l’aide d'une transformation orthogonale. 
Comme le rang de la matrice À est égal à r << n, alors nr — r valeurs propres de 
la matrice À seront égales à 0, Ar4y = . .. — Àn = 0. Soient q;, . . . p, les 
vecteurs propres orthonormés de la matrice 4, ® une matrice r X r dont les 
colonnes sont les vecteurs propres q:. . . ., q. correspondant aux valeurs propres 
différentes de 0, À. ..., À, Oo une matrice r X (nr — r) dont les colonnes 
sont les vecteurs propres +1, .- . .. @ Correspondant à la valeur propre nulle, 
À la matrice diagonale d'ordre r dont les éléments diagonaux sont À, . .., 
Nous pouvons alors écrire 


AD = OA, AD = 0. 


Comme par hypothèse nous avons 4° — À, nous en tirons, en vertu de la pre- 
mière de ces relations, 4° = OA, et d'autre part 420 = 4 (AD) = AOA — 
= OA’. Nous avons ainsi À = A°, ce qui n'est possible pour une matrice dia- 
gonale que dans le cas où’A est une matrice unité d ordre r, À = J,. Ainsi, nous 
avons AO — © et la matrice À s'exprime par la formule 


pT 
A=[® ®l ps FA ME 
| 0 


Considérons maintenant le vecteur aléatoire U — ©OT X. Sa matrice de 


variances-covariances est égale, en vertu de (3.50), à K, — OTK,®D — OT ©®, 
étant donné que, par hypothèse, K, — 7. Or, en vertu de l'orthonormalité des 
vecteurs propres My, : - « Pn» OT® = J,. C'est pourquoi K,, = J,. Nous obtenons 
ainsi en définitive 

UTKAU=UTU—= XTHOTX = XTAX=Y. 
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Ainsi, la variable aléatoire Y qui nous intéresse représente la forme quadratique 
qui figure avec un coefficient 1/2 à l’exposant de la puissance dans l'expression 
de la densité de probabilité normale du vecteur aléatoire L’ à r dimensions. 
Par conséquent, en vertu de l'affirmation démontrée dans l'exemple 10 la va- 
riable aléatoire Y suit une distribution du y? à r degrés de liberté: 


LEE oh, 
fe Q@)= 10  ,7 e apr 


2r(7 
27r(+) 

Démontrons que dans le cas plus général également, où X suit une distri- 
bution N (0, K,) (peut être dégénérée), la variable aléatoire Y — X TA X suit 
une distribution du 4° à r degrés de liberté, si la matrice B — K\/2A K°/2 repré- 


sente une matrice de projection orthogonale sur un certain sous-espace à r di- 
mensions (c'est-à-dire qu’elle est de rang r et possède la propriété d idempotence 


‘Exem ple 34. Dans les conditions de l’exemple précédent, trouver la 
distribution de la variable aléatoire 


n 
Y=XTX—nX?2, X=({/nr) À Xp. 
pæ=i 
Nous avons, dans ce cas, 


1 
Y=S Xi D XpXq=XTAX, 
p=1 P,n=1 
où 

at _1 rc 

n n n 

LL s-+ ei 

A = n n n 

um - + 

n n n 


Cette matrice est de rang r — n — 1 et A° — À. Par conséquent, la variable 
aléatoire Ÿ, conformément au résultat de l'exemple 33, suit une distribution 
du %? à r — n — 1 degrés de liberté: 


n-3 | 
fe — 5 D ne, 
9 n — 
D r ( 2 |] 


Exemple 35. En utilisant les formules (31), (34)-(38), montrer que la 
formule (3-6) donne, pour l'espérance mathématique de la fonction Y = q (\1 
de la variable aléatoire X, la même valeur que la formule (3.3): 


Oo © 


MY= Me = | p@nitar= | jte. 


© — 00 
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Exemple 36. Démontrer, à l’aide des formules de ce chapitre, le 
théorème du point 4.2.5 : si Les variables aléatoires X1,..., X, sont indépendantes, 
alors les variables aléatoires Yi — ®1 (X1), - - +, Yn = Qn (Xn) sont aussi indé- 

endantes pour toutes Les fonctions Ps, . . ., PA (la démonstration est conduite à 
l'aide des formules (31), (34)-(38) pour les fonctions dérivables m1, . .., @a 
et à l'aide de la formule (9) pour toutes les fonctions mesurables m1, . . ., p,). 

Exemple 37. Si l'on dispose dans l'ordre croissant les valeurs de n 
variables aléatoires scalaires indépendantes X,,..., X, ayant la même fonction 
de répartition F (x), alors la v-ième valeur est appelée Za v-ième valeur inférieure 
et la v-ième valeur dans l'ordre décroissant est appelée La v-ième valeur supérieure. 
Trouver les lois de distribution de la v-ième valeur inférieure U et la v-ième 
valeur supérieure V. 

Dans ce cas, le plus simple est d'appliquer la méthode de comparaison des 
éléments de probabilité. Calculons l'élément de probabilité de la variable U, 
correspondant à un intervalle infiniment petit [u, u + du) (c'est-à-dire la pro- 
babilité d'appartenance de la v-ième valeur inférieure U à cet intervalle). Pour 
que la variable U appartienne à l'intervalle [u, u + du), il est nécessaire et 
suffisant que v — 1 quelconques parmi les x variables X,, ..., X, prennent 
des valeurs inférieures à u, que l’une de ces valeurs appartienne à l'intervalle 
u, u + du) et que les nr — v autres prennent des valeurs non inférieures à 
u + du. 

Nous sommes ainsi en présence d’un schéma de répétition des épreuves 
comportant trois événements incompatibles formant un groupe complet 4, = 
= {XX <u}, A, = ({(X > u+ du} ct A3 = {u< X <u+ du} dont les 
probabilités au cours d'une épreuve sont respectivement égales à F (u), 1 — F (u), 
et f (u) du (aux infiniment petits d'ordre supérieur près). C’est pourquoi, pour 
calculer la probabilité cherchée, on peut appliquer la formule (1.36) pour la 
distribution polynomiale pour r — 3. Nous obtenons alors 


9 (u) [1 (u)]" = j (u) du. 


ROUE TEE 


Cette formule définit la densité de probabilité de la v-ième valeur inférieure U: 


— _ v-i _ nv 

fi (u) = (v—1)! (n—v)l F (u) [1 F (u)] f (u). (46) 
Nous trouvons exactement de la même façon la densité de probabilité de 

la v-ième valeur supérieure V: 


fa (v)= 


n! 


enr F7 ©) GT TE O). (47) 


Nous en tirons en particulier, en posant v = 1, les formules correspondantes des 

densités de probabilité des valeurs inférieure et supérieure U — min X}, 

1<SRALN 

V = max X;,: 
1<RÇEN 


fjituw) = nf(1—F(unt1f(u), fav) = nFr1(b) f (). (48) 


Pour trouver la densité de probabilité conjointe de la v-ième valeur infé- 
rieure U et de la v-ième valeur supérieure V quand v < n/2, il suffit de remarquer 
que pour l'appartenance de U à l'intervalle (u, u + du) et de V à l'inter- 
valle (v, v + dv), (v > u), il est nécessaire et suffisant que v — 1 quelcon- 
ques parmi les variables X;, ..., X, prennent des valeurs inférieures à u, 
que v — 1 autres prennent des valeurs non inférieures à v + dv, que nr — 2v 
appartiennent à l'intervalle [u + du, v), l'une à l'intervalle [u, u + du) et 
une autre à l'intervalle [v, v + du). Ainsi. le problème se ramène à 
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un schéma de répétition des épreuves comportant cinq événements dont 
les probabilités respectives sont F(u), 1 — F(v), F (v) — F(u), f (u) du, 
{ (v) du. En utilisant la formule (1.36) pour r — 5, nous obtenons, après 
avoir simplifié sur du dv, l'expression suivante pou la densité de proba- 
bilité conjointe de la v-ième valeur inférieure et de la v-ième valeur supérieure 

n! 


En CCE LT Cm 
— Fu) (Fr (0)! f(u)f(v)1(v—u). (49) 


Le dernier facteur 1 (v — u) a été ajouté pour cette raison que l'événement 
V << U est impossible si v < n/2, de sorte que f (u, v) — 0 quand v < «. 
Dans le cas particulier où v — {1 on obtient de (49) la formule de la densité 
de probabilité conjointe de la plus petite et de la plus grande valeur U — 
= min ZX}, V = max X}: 
iShEn 1ShkÇn 


fu v)=n(Rn—A)IF (0) — F (u)]r=f(u) f (v) 1 (v — u). (50) 


Exem P le 38. Dans les conditions de l'exemple précédent, trouver la 
distribution de la différence entre la v-ième valeur supérieure et la v-ième valeur 
inférieure S — Ÿ — U. 

Etant donné que l'équation s — v — u pour tout s possède une solution 
unique v = u + s, alors, en vertu de (34), la densité de probabilité de la variable 
S est définie par la formule 


F1 (u)[F (v)— 


= | ft u+a du. (51) 


— 00 
En portant ici l'expression (49) de la fonction f (u, v), nous obtenons 


11 à 
Îs = ER | FT (u)[F(u+s)— 


— Fu) (A F (u+s) "T1 f(u)f(u+s) du. (52) 


Dans le cas particulier où v = 1 nous en tirons la densité de probabilité 
de l'étendue de variation des nr variables aléatoires indépendantes $S — 


= max X,— min X} (l'étendue de l'échantillon dans les problèmes de 
1SAÇN iGhkçn 
statistique) : 


fa (s)=n (n—1)1(s) | [F(u+s)—F (u)] f(u) f(u+s) ds. (53) 


00 


3.3. Application des fonctions ô. Une autre méthode pour trouver 
la distribution des fonctions des variables aléatoires est basée sur 
l'application des fonctions 6. 

D SiY = œ (x), alors la variable aléatoire Ÿ pour toute valeur x 
de la variable X admet une seule valeur possible œ (x) et la proba- 
bilité conditionnelle de cette valeur pour un x donné est égale à 1. 
C'est pourquoi la densité de probabilité conditionnelle de la variable 
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Y pour À = x représente une fonction Ô: 
fa (Q 12) = 8 (y — p (x). 


Par conséquent, la densité de probabilité conjointe des variables 
X et Ÿ = œ(X) est définie par la formule 


f (&, y) = ji (x) 8 (y — y (2)). 


Nous en tirons, en effectuant l'intégration sur x conformément à 
(4.9), la densité de probabilité de la variable aléatoire Y : 


hU= | HO (U—-p()) dx. € (54) 


Cette formule définit la densité de probabilité de la variable ŸY — 
— p (X) aussi bien pour les variables X et Ÿ scalaires que vectoriel- 
les. Elle est particulièrement commode pour trouver la densité de 
probabilité d'une fonction de variables aléatoires dans le cas où la 
fonction o (x) admet des valeurs constantes dans certains domaines 
de l’espace des valeurs de la variable aléatoire À, avec une probabi- 
lité différente de 0. En pareils cas, la formule (54) donne automatique- 
ment une combinaison linéaire des fonctions Ô correspondantes dans 
l'expression de la densité de probabilité jf, (y), alors que les formules 
(31), (34)-(38), de même que la méthode de comparaison des éléments 
de probabilités, s'avèrent inapplicables (il convient de noter que 
la formule (9) est valable également dans de tels cas). 

Nous laissons au lecteur le soin d'établir, à partir de (54), les 
formules (31), (34)-(38) en effectuant l'intégration après un change- 
ment de variables approprié et, si cela est nécessaire, en partageant 
le domaine d'intégration en différentes parties. 


Exemple 39. Trouver la distribution du signal de sortie d’un limita- 
teur (exemple 2.15) si l’on connaïît la densité de probabilité f, (x) du signal 
d'entrée X. 

Nous avons trouvé, dans l'exemple 2.15, la densité de probabilité du signal 
de sortie Ÿ en déterminant auparavant sa fonction de répartition (c'est-à-dire 
en appliquant la formule (9) à ce problème particulier). Nous résoudrons mainte- 
pant ce problème en utilisant la formule (54): 


kw= | nwëvroët | n@6U. Det 1méw-aa 
=h@+6G+e) | nE@a+6U—e) | ner 
Exem & le 40. Trouver la distribution de la somme Z des variables 


aléatoires indépendantes X et Y distribuées uniformément sur les intervalles 
(—a, a) et (—b, b) respectivement, b > a. 


$ 3] DENSITÉ DE PROBABILITÉ D'UNE FONCTION 20! 


Nous trouvons, à l'appui de la formule (54), 
a b 
1 
Î2 E= | dz | Ô(z—r7—7y) dy. 
-a —b 
Etant donné que le point z — x estsitué dansl'’intervalle (— b, b] uniquement si 
z—z+b>0,2z— x — b< O0, alors l'intégrale sur la variable y est égale à 
la différence des fonctions en escalier unitaires 1 (2 — x + b) —1 (2 — x — b)et 
nous avons 


Îe (2) = _—_. | [A (2—x+b)—1(2—1—b)] dz. 


La fonction à intégrer n'est ici différente de 0 que si z — b << z << z + b. L'in- 
tervalle (z — b, z + b) n’a pas d'’intersection avec l'intervalle d'intégration 


Fig. 25 


(—a, a) si z< —a — b et si z > a + b. 
G—b, 2+b) N(—a, a)= (—a :+b) si 2:2E€(—a—b, a — b), 
( —b, 2+b) NA(—a, a) = (—a, a) si 2z2E€(a—b, b — a), 
GG —0bd,z2+b) NA(—a a) = (:— b, a) si 2E€(b—a, a + b). 


C'est pourquoi nous avons f, (z) = 0 quand | :| > a — b, 


[ (@+0+:) Si 2C€(—a—b, a—b), 


— — si 2E€(a—b, b—a), 
 (a+b—2) si 2zE€(b—a, a+b). 


Le graphique de cette densité de probabilité est montré sur la fig. 25. 


3.4. Application des fonctions caractéristiques. En certains cas, 
pour trouver les distributions des fonctions de variables aléatoires, 
il est rationnel d'appliquer la méthode des fonctions caractéristiques. 

Considérons la variable aléatoire ŸY — q (X), où œ (x) est une 
fonction quelconque (mesurable, cf. point 2.2). Conformément à la 
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définition (4.63), la fonction caractéristique g, (À) de la variable Y 
est donnée par la formule 


ga (A) = Mer = Mie = À ee f(x) dr, (55) 


où f, (x) est la densité de probabilité de la variable X. Après avoir 
déterminé de cette manière la fonction caractéristique de la variable 
Y, on peut trouver, à l’aide de la formule (4.72), sa densité de pro- 
babilité 


oo 


Que | eve, G) an. (56) 


En portant l'expression (55) dans (56) et en intervertissant l’ordre 
formel d'intégration, on obtient à nouveau, compte tenu de la for- 
mule (15) de l’annexe 1, l’expression (54). 


Exemple 41. Trouver la distribution de la somme de deux variables 
aléatoires X et Y uniformément distribuées dans les intervalles (—a, a) et 
{—b, b) respectivement, a << b. 

Les formules (55) et (56) donnent 


o0 a b 
fa C)= _ | eT ik q | | eiME+U) gr dy = 
— 00 ut —b 
C0 oo 
1 | -iks Sin ka sin Àb dà= 1 | sin Àa sin Ab cos Àz = 
2r1ab A? . 7 fab A2 qu 


—= —— | [cos (a—b+z) À + cos (a—b—2) À — 
0 


— cos (a+ b+z) À—cos (a+b—2) À] — = : 


Nous en tirons, à l'appui de la formule bien connue, 


1— cos au ELA 
| sr = [a] 
0 
la relation 


Îs G)= 


r Uatb+il+latb—zl—la—b+zla—b—:l). 


Ce résultat coïncide avec celui de l'exemple 40. 

Exemple 42. Les coordonnées du vecteur aléatoire X sont indépendan- 
tes et suivent la distribution W (0, D). Trouver la distribution conjointe des 
variables aléatoires X et S — XTX — nX?, où X désigne la moyenne arithmé- 
tique des coordonnées du vecteur X. 
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Nous trouvons, à l'appui de la formule (55), l'expression 
K (Ar. d)= MeimX+ihes 
ER UE | Cxp (our + 0 (een 12} dx 
21 D)n/? | - . 2D | 


-œ 


À l'aide du changement de variables y — Az, où À est une matrice orthogonale 
dont les éléments de la première ligne sont égaux à 1// r, nous obtenons V n x — 
— #1. et l'intégrale se transforme en un produit de n intégrales 


AUTE À) = 


OC 


[s, 
1 L y° 1—2iDh n-1 
=D | xp (TE —an}e( ere af. 
© — 00 


« 


En utilisant la formule (1) de l’annexe 2, nous obtenons 
D ni 


s— À? = 
g(Auh=e 2  (A—2iDR) ? 


Il en découle, en vertu des propriétés 6) et 3) des fonctions caractéristiques et 
des formules (4.68) et (4.69) pour pp — n/2 — 1 et k — 1/2, que les variables 
aléatoires X et S sont indépendantes, X suit une distribution W (0, D/n) et 
S/D une distribution du %? a k — n — 1 degrés de liberté. 

Exemple 43. Les lignes de la n X m matrice X sont des vecteurs à m 
dimensions indépendants suivant une même distribution W (0, Æ), X est une 
matrice-ligne dont les éléments sont les moyennes arithmétiques des éléments 
des colonnes correspondantes de la matrice X (exemple 15). Trouver ja distri- 
bution conjointe des variables X et S — XTX — nXTX. 

La formule (55) nous conduit à l'expression 


e (us M)= Meithmti tr 28 — 
oO 


_ 1 C z DT | : 
COR IAIPE | CXP {ht ho (z Tnt t) T9 tri 7} dz, 
69 


où À, est une matrice-colonne m X 1, et À, une matrice m X m symétrique. 
En 2ppiquent la transformation orthogonale de l'exemple précédent à chacune 
des colonnes de la matrice x, nous obtenons 


Oo 


1 iyÀ Le 
(AUTE = on RIT | exp { 5 YK 17} ay x 


Vnr 


x | | exp {—5 tua) y} 1 : 


où y est une matrice-ligne 1 X m. Nous obtenons en définitive, à l'appui de la 
formule (2) de l'annexe 2, l'expression 


AT 9 
£ (lu h)=e " RE | FAIR [JD = 

AT Kh:1/2 

. À. KR LKR [Ra 
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Il en découle, en vertu des propriétés 6) et 3) des fonctions caractéristiques et de 


(4.70), que les variables X et S sont indépendantes, X suit une distribution 
N (0, K/n) et la fonction caractéristique de la variable S est définie par la 


formule 
gs(M = 11—2iKA|-(M-0/2, (57) 


où À est une matrice m *X m symétrique. Pour trouver la distribution de la 
variable $, il reste à remarquer que g, (à) est absolument intégrable et à appli- 
quer la formule (56). Nous obtenons alors, après quelques déve promet abo- 
rieux, que S suit une distribution de Wishart définie par la densité de probabilité 
Wnm (s) (exemple 18) 105]. 

Exemple 44. Nous pouvons trouver exactement de la même façon 
que dans les conditions de l'exemple 43 la distribution de la variable S’ = XTX: 


4  itr AxTx- 1 trxK-1xT eue 
Es’ (A) = [(27r)m | K|]"7/2 | e dr 17 KR . 


En comparant cette formule à (57), nous voyons que la variable S’ suit une 
distribution de Wishart w,+1 m (s’). 


3.5. La méthode des moments. Si la fonction œ (x) est bornée 
alors on peut appliquer la méthode des moments pour trouver la 
distribution de la variable Ÿ = œ (X) à partir de la distribution de 
la variable X. 

Conformément à ce que nous avons démontré au point 4.5.3, 
la distribution d’une variable aléatoire bornée est entièrement définie 
par ses moments. C'est pourquoi, dans ce cas précis, il suffit de 
calculer les moments de la variable Y = œ (X). 


Exem P le 45. Dans les conditions des exemples 43 et 44, trouver la 
distribution du rapport des déterminants des matrices S et S’, V = | S |/| S’ I. 
Remarquons tout d'abord que 


IS'1=IS| (1+nXS-1XT). (58) 


En prenant en considération le fait que la matrice S est définie positive, nous 
pouvons conclure que | S” | > | S | > 0. Ainsi, la distribution de la variable V 
est entièrement concentrée dans l'intervalle [0, 1]. Par conséquent, la distribu- 
tion de la variable V est entièrement définie par ses moments. 

Pour calculer les moments de la variable V, établissons tout d’abord les 
formules des moments des variables | S | et | S’ |. A l'appui de la formule (24) 
définissant la densité de probabilité w,,, (s) de la matrice S, nous avons 


Se 4-1 + tr K=1s 
MIS —m | je 


(mA) 2 


En remarquant que la fonction à intégrer, multipliée par Cnsor. m X 
X(2m[A1)-(%%27 1/5, représente la densité de probabilité de æwnyor, m (S), 


nous obtenons 
Op —; 
ni r NT ét —1 ] 


M\S|"= (MK) = (om |K|y —— 6 
Cn+or. m 


N : 
_ r ( 2 ] 
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pour tout r >> — (n — m)/2. Comme Îa distribution de la matrice S” est définie, 
conformément à ce que nous avons établi dans l'exemple 44, par la densité de 
probabilité w,+1,m (s’), alors il suffit, pour trouver les moments du déterminant 
| S”’ |, de remplacer dans (59) r par nr <- 1. Nous aurons en définitive 


e r ( n+2r+i—i ) 


C > 
M SIT RAT) (om Ke 
[Sir @ KT (2 1 Æ |) IL JE 
_ 9 


(60) 


pour tout r > — (n + 1 — m)/2. 
Passons maintenant au calcul des moments de la variable V — | S |/| S’ I. 


En remarquant qu'en vertu de (58) V = (1 - nXS-1XT)-, c'est-à-dire repré- 
sente une fonction de variables X et S, et en utilisant la densité de probabilité 
conjointe de X ct S, trouvéo dans l'exemple 43, nous pouvons écrire 


m n-m 


9 4 ———.—— = À 
MVr= que ( pr (sl X 


1 ue nu 
= tr KT ls x 1xT 


xe dr ds = 


: 1 n+2r-m 
Te PRE 2 
(2m IAA am {| [s"17 sl à 


sa tr K-15= 1 2K-1T 


Xe 2 dz ds. 


Cette dernière intégrale multipliée par 
_n+èr m 


9) 9 
Cn+er. m(2M KI)  * 4 ° 


représente A7 | S’ |-r dans le cas où n est remplacé par r + 2r. Par conséquent, 
pour calculer cette variable, il suffit d'appliquer la formule (60) en remplaçant n 
par r + 2r et r par —r. Nous obtenons en définitive 


r (+) C ( dt ) 
yyr—_Cnm Cnssrst.m NN 2 tr 


Cn+or,m  Cn+i,m [ (= | [ (++) ‘ 
n D 


En comparant cette formule à la formule de l’exemple 3.19 pour les moments de 
la distribution B, nous pouvons conclure que la variable V suit une distribution 
f de paramètres p — (n — m)/2 et q — m/2. Ce résultat coïncide avec celui de 
exemple 18. Toutefois, dans l'exemple 18 il avait été obtenu pour une fonction 
(u) arbitraire définie dans l'exemple 15. Ici, il a été obtenu pour le cas particu- 
fier d'une distribution normale de la matrice X. 
En conclusion, remarquons qu’en vertu de (58), la variable V est liée au 
rapport généralisé de Student T (exemple 15) par la relation 


T3 \-1 
=(i4 sr) 
En utilisant cette relation et la distribution que nous avons trouvée de la variable 


V, on peut aisément obtenir le résultat de l’exemple 15 pour le cas particulier 
d’une distribution normale de la matrice X. 
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$ 4. Les théorèmes limites 


4.1. Théorème limite le plus simple. La méthode des fonctions 
caractéristiques est commode pour trouver les distributions limites 
des fonctions d’un nombre indéfiniment croissant de variables aléa- 
toires. Nous l’appliquerons pour démontrer le théorème limite le 
plus simple. 

Si {X,} est une suite de variables aléatoires indépendantes suivant 
une même distribution, d'espérance mathématique m et de matrice de 
variances-covariances K, alors la suite des distributions des variables 
aléatoires 

La = —— D (XS +... HD), Xk=Âr,—m (n—=1, 2,...), 
converge vers la distribution normale N (0, X). 

> Soit g (À) la fonction caractéristique de chacune des variables 
X,. En vertu des formules (4.65) et (4.66) la fonction caractéristique 
£n (à) de la variable Z, est définie par la formule 


= [er( He} )T 


Nous en tirons 


he G=n(- 2 +me(— ) |. (61) 


Or, en vertu de (4.92), nous avons 


me) dE 4 (UE) 


En portant cette expression dans (61), nous obtenons 
In ga = — ATK + no (1 HE le 
Nous en tirons la relation 
Ingn()=—<'ATKA quand n->00. 


Ainsi, la fonction g, (À) converge vers la fonction caractéristique 
de la distribution normale W (0, Æ) pour tout À. On peut démontrer 
maintenant qu’il en découle la convergence de la suite de distri- 
butions des variables Z, vers N (0, K) [17, 44]. € 

Le théorème que nous avons démontré est valable également dans 
le cas où le rang de la matrice de variances-covariances Æ est infé- 
rieur à la dimension m des variables X.. Dans ce cas, la distribution 
limite V[0, X] sera dégénérée. 


LE 
ee 
———# 
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Exemple 46. Dans l'exemple 3.11, on a montré que la distribution 
binomiale pouvait être considérée comme la distribution de la somme des 
variables aléatoires X,, ..., X, dont chacune ne peut avoir que deux valeurs 
possibles, 0 et 1, avec les probabilités q — 1 — p et p respectivement. Chacune 
de ces variables aléatoires a une espérance mathématique m = p et une variance 
D = pq. Conformément au théorème que nous avons démontré, la distribution 
de la variable aléatoire 


Zn= = (Ait Xn— np) 


tend vers NV [0, pql quand nr —+ (théorème de Laplace). 


Exemple 47. Etant donné que la moyenne arithmétique X des variables 
aléatoires X,, . .., X, indépendantes et identiquement distribuées est liée à la 
variable Z, par la relation X = Z,,/ Vn + m, alors il découle du théorème que 
nous avons démontré que la variable X est asymptotiquement normalement dis- 
tribuée W (m, K/n). 

Exemple 48. On a montré dans l'exemple 3.13 que le vecteur aléatoire 
Z{i) dont les coordonnées sont les nombres de réalisations des valeurs z,, . ..,x\ 
de la variable aléatoire discrète X au cours de la i-ième épreuve a une espérance 
mathématique p = [P1 - - - PNIT et une matrice de variances-covariances À = 
= À — ppT, où ps, ..., pa S0nt les probabilités des valeurs z,, . . ., rx, respec- 
tivement, et À une matrice diagonale dont les éléments diagonaux sont p,,... 

.., px. Conformément au théorème démontré, le vecteur aléatoire 


n 
1 (i) Z—np 
U=—— Z''—pl= = » 


où Z est le vecteur dont les coordonnées sont les nombres de réalisations Z:, . . . 
.., ZX des valeurs x;, ..., x\ au cours de nr épreuves est asymptotiquement 
normalement distribué N (0, À — ppT). Il en découle que le vecteur des fréquen- 


ces P — [P, Les P,IT des valeurs z1, .... r., égal à P — UIV nr + p, est 
Hbr e uement normalement distribué N (p, (A — ppTj)/n). 
onsidérons maintenant le vecteur aléatoire V de coordonnées F', = 


1=1 


= (P, — p,) Vip, (v = 1,..., N). L'espérance mathématique du vecteur V 
est nulle et sa matrice de variances-covariances K, est définie par la formule 


Ko=1—9gq7, q=iV Pie. V'pn]T. 


Conformément au résultat obtenu, la distribution du vecteur V converge vers 
d (0, K,) quand n -> oo. Etudions la distribution asymptotique de la variable 
aléatoire 


N À 
(Py— p)° T 
Y = —_—— =} y 
: 2 Pv 


quand r —+ oo. Utilisons pour cela le dernier résultat de l'exemple 33. Dans 
ce cas précis, la matrice À est la matrice-unité d'ordre N et B = K//?1K°/? — 
= K,,= I — qqT est de rang N — 1 et représente la matrice de projection ortho- 
gonale, de sorte que qTq — SUV p,} = Ÿ p, = 1 et par conséquent (9qT) = 
= q (qTq) qT = qqT. Ainsi, nous avons 


Ko 1—29q7 + (gg } = 1— 97 = Ko. 
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Conformément au dernier résultat de l'exemple 33, la variable Y = VTV suit 
asymptotiquement une distribution du 4° à V — 1 degrés de liberté. 
Les coordonnées du vecteur V sont liées par une relation scalaire évidente 


qTV =0 découlant des égalités Sh,=Y py=1 (rappelons que q est le 
vecteur de coordonnées V P.. …, Vpn). C'est pour cela précisément que 
la matrice de variances-covariances du vecteur Ÿ est de rang N —1. 


Le théorème relatif à la convergence de la distribution de la variable VTV 
vers É PR du +° à N — 1 degrés de liberté a été démontré par K. Pear- 
son [72, 73]. 


4.2. Signification des théorèmes limites. Il découle du théorème 
limite que nous avons démontré que la distribution de la somme des 
variables aléatoires X,, . .., Y, est aussi proche que l’on veut de Îa 


distribution normale V (5 m,, nK) quand n est grand. 

Le théorème relatif à la convergence d’une suite de distributions 
des sommes convenablement normées des variables aléatoires cen- 
trées vers la distribution normale dans des conditions très générales 
s'étend également au cas des variables indépendantes X, ayant 
des distributions diverses, ainsi qu’au cas des variables À, dépen- 
dantes [54, 55, 17, 44, 120]. 

Les théorèmes limites constituent un grand chapitre de la théorie 
moderne des probabilités. Ils expliquent la raison d’une large dif- 
fusion de la distribution normale et le mécanisme de son élabora- 
tion. On peut affirmer, à l'appui des théorèmes limites, que dans 
tous les cas où la variable aléatoire est constituée par la sommation 
d'un grand nombre de variables aléatoires indépendantes ou faible- 
ment dépendantes dont la variance de chacune est faible par rapport 
à la variance de Ja somme, la distribution de cette variable s'avère 
pratiquement normale. 


CHAPITRE 6 


ESTIMATION DES’ PARAMÈTRES 
DES DISTRIBUTIONS 


$ 1. Principaux problèmes de la statistique 
mathématique 


1.1. Définition des caractéristiques statistiques à partir de l’épreu- 
ve. Pour obtenir les données initiales pour les calculs probabilistes, 
ainsi que pour obtenir les données initiales pour d’autres calculs pra- 
tiques, on doit se tourner vers l’expérience. Les méthodes d'analyse 
des résultats des expériences et de définition à partir d'elles des 
probabilités des événements et des caractéristiques des variables 
aléatoires constituent l’objet de la statistique mathématique, un 
large chapitre de la théorie moderne des probabilités. 

De notre approche de la définition des principales notions de la 
théorie des probabilités que nous avons exposées dans les chapitres 
précédents découlent directement les procédés de détermination des 
principales caractéristiques statistiques à partir de l'épreuve. Nous 
savons ainsi qu'en présence d'un grand nombre d'épreuves on peut 
assimiler la probabilité d’un événement à sa fréquence, l'espérance 
mathématique et la variance d’une variable aléatoire à sa moyenne 
arithmétique et à sa variance d’échantillonnage, Îla covariance et 
le coefficient de corrélation de deux variables aléatoires à la cova- 
riance et au coefficient de corrélation empiriques. Enfin, on peut 
déterminer la densité de probabilité d’une variable aléatoire comme 
la densité relative des points expérimentaux dans les intervalles 
correspondants. Toutefois, de nombreuses questions restent encore 
sans réponse. ÀÂu cours de n'importe quelle mesure ou détermination 
expérimentale d'une certaine grandeur, le problème se pose toujours 
de la précision de sa détermination. Ainsi, dans notre cas, la première 
question qui se pose est la suivante : avec quelle précision obtenons- 
nous la probabilité d’un événement en la remplaçant par la fréquence 
de cet événement ? Que faut-il faire pour augmenter la précision de 
la détermination de la probabilité d’un événement ? Combien faut-il 
effectuer d'épreuves pour obtenir la probabilité d’un événement avec 
une précision donnée? Des questions semblables apparaissent lors 
de la détermination des caractéristiques des variables aléatoires. 
Toutes ces questions doivent obtenir une réponse pour que l'on sache 
quel crédit accorder aux données obtenues par suite d'une épreuve 


14—0244 
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et aux calculs basés sur ces données et si l'on peut avoir confiance en 
elles au cours de notre activité pratique. 

Et d’abord il est clair qu'il ne peut être question d'une définition 
exacte de la probabilité d’un événement à l’aide d’un nombre fini 
d'épreuves. Bien sûr, la fréquence d’un événement peut, par hasard, 
s'avérer égale à sa probabilité. Mais cela est peu probable et il est 
impossible de détecter cette coïncidence. La fréquence d'un événement 
obtenue par suite de la réalisation des épreuves est pratiquement 
toujours différente de sa probabilité. 

Par ailleurs, on ne peut parler d'une détermination approchée 
au sens usuel du terme de la probabilité d'un événement à l’aide de 
résultats des épreuves. En parlant de la détermination approchée 
d’une grandeur quelconque, nous sous-entendons habituellement 
que l’on peut indiquer les limites de l'erreur commise. La fréquence 
d'un événement, elle, est aléatoire pour tout nombre d'épreuves 
donné, du fait du caractère aléatoire des résultats des épreuves parti- 
culières. Par exemple, si nous devons un grand nombre de fois dé- 
terminer la fréquence d’un même événement, disons l'apparition 
de pile après 100 épreuves, nous obtiendrons différentes valeurs de 
la fréquence de cet événement. Le caractère aléatoire des résultats 
des épreuves particulières fait que la fréquence peut notablement 
différer de la probabilité d’un événement. C’est pourquoi, en déter- 
minant la probabilité inconnue d'un événement comme la fréquence 
de cet événement au cours d’un grand nombre d'épreuves. nous ne 
pouvons indiquer les limites de l’erreur commise et garantir que 
cette erreur ne sortira pas de certaines limites. Le caractère aléatoire 
de résultats des épreuves fait qu'il ne peut y avoir de garantie com- 
plète que l'erreur ne sorte pas de certaines limites données. C'est 
pourquoi, en statistique mathématique, on parle habituellement 
non pas des valeurs approchées des grandeurs inconnues mais de 
leurs valeurs, de leurs estimations convenables. 

Dans ce qui suit nous appellerons toutes les grandeurs devant 
être définies, les probabilités des événements, les caractéristiques 
numériques et les distributions des variables aléatoires, des caracté- 
ristiques statistiques et leurs valeurs calculées à partir des résultats 
des épreuves, leurs estimations. 

Après avoir estimé, à partir des résultats des épreuves. telle ou 
telle caractéristique statistique, il est naturel de poser la question 
de savoir dans quelle mesure concorde avec les données expérimenta- 
les l’hypothése suivant laquelle la caractéristique inconnue a préci- 
sément la valeur que nous avons trouvée par le processus d'estima- 
tion. C'est ainsi qu'une deuxième classe de problèmes de la statistique 
mathématique apparaît: le problème de la vérification des hypo- 
thèses. 

Ainsi, les principaux problèmes de la statistique mathématique 
sont l’élaboration des méthodes de calcul des estimations et l’étude 
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de la précision de leurs approximations des caractéristiques à estimer 
ainsi que l'élaboration des méthodes de vérification des hypothèses. 

1.2. Diverses formes de la convergence probabiliste. Dans les 
chapitres 1 et 3 nous sommes arrivés, à l'appui de considérations 
intuitives, à la conclusion qu'avec l'augmentation du nombre d’épreu- 
ves r les fréquences des événements et les valeurs moyennes empiri- 
ques des variables aléatoires doivent s'approcher des probabilités 
et des espérances mathématiques correspondantes. Toutefois, du fait 
du caractère aléatoire des résultats des épreuves, il n’est pas possible 
de parler de convergence au sens usuel du terme. C'est pourquoi il 
devient nécessaire d'introduire de nouvelles notions de convergence 
et de limite, différentes de celles qui sont couramment adoptées 
en analyse mathématique élémentaire. 

La suite de variables aléatoires {S,} est dite convergente en moyen- 
ne quadratique (convergenite m.q.) vers la variable aléatoire S si 
MIS, — S—0 quand n—- co. 

La suite de variables aléatoires {S,} est dite convergente en 
probabilité (convergente P.) vers la variable aléatoire S si, pour tout 
£e >0,0ona 


P(ISn—S1>e 0 quand n—+ 00, 


La suite de variables aléatoires {S,} est dite convergente presque 
sûrement (convergente P.S.) vers la variable aléatoire S si 
P(S,—S) = 1. 

Ces définitions se rapportent aussi bien aux variables aléatoires 
scalaires qu'aux variables aléatoires vectorielles de dimensions finies. 
Dans ce dernier cas, | x ! signifie le module (la norme) du vecteur x. 

Etant donné que toute variable non aléatoire peut être considérée 
comme une variable aléatoire prenant une valeur unique avec une 
probabilité égale à 1, les définitions que nous avons rapportées 
concernent également la convergence d'une suite de variables aléa- 
toires vers une variable non aléatoire, en particulier vers 0. 

1.3. Inégalité de Tchébychev. Relation entre différentes formes 
de convergence. Il est intuitivement clair que toute suite convergen- 
le (m.q.) converge également (P.) vers la même limite. Pour démontrer 
cette affirmation, établissons tout d’abord une inégalité importante 
en théorie de probabilités. 

> Pour tous e = 0et p > 0 on a pour toute variable aléatoire X 
(scalaire ou vectorielle) la relation 


PIXI>o= | Jade | Ir Ha< 


Ix|<e (x|>e 


1 . ) 1 
<y | Isli(@dr= MIX. 


Ji+ 
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Ici, dans la première et la seconde intégrales, l'inégalité figurant 
sous le signe d'intégration signifie que le domaine d'intégration est 
l'ensemble de tous les x vérifiant cette inégalité. 

Ainsi, pour tous & >0, p >0 nous avons 


P(IXIDESZMIX/. < (1) 


Cette inégalité est habituellement appelée inégalité de Tchébychev. 
Lors de l'application pratique de cette inégalité, le nombre p >Ù 
est choisi de telle sorte que M | À [FP << co. 

En appliquant l'inégalité (1) à la variable aléatoire X — 
= $, — S, nous obtenons pour p = 2 


P(ISr—S >< MIS, —S P. 


Jen découle directement la convergence (P.) de toute suite con- 
vergente (m.q.). 

L'affirmation inverse n’est pas vraic dans le cas général. Pour 
démontrer cela, il suffit de citer un exemple correspondant. 


Exemple 1. Soit S, une variable aléatoire de densité de probabilité 


1 n 
LA nr prapec re (n = 1, 2, sax) 


(distribution de Cauchy). Etant donné que 


E ne 
; 4 | dt 2 

P(ISn1<e= | În (S)ds=— | Te = arc lg (ne) —> 1 
—E RE 


quand # —+ oo, alors P (| S, | > e) —+ O pour tout € => 0. C'est pourquoi la 
suite {S,} converge (P.) vers 0. Toutefois, 47 | S, | = pour tout # (exemple 
3.6), de sorte que la suite {S,} ne converge pas (m.q.) vers 0. 


On vérifie aisément que toute suite de variables aléatoires {S,} 
convergeant (p.s.) vers S converge également vers S en (P.) 

> En effet, il découle de la convergence (p.s.) de {S,} que pour 
tout £ > 0 


P (| Sm— S |> e pour av moins un m> nr) —+ 0 quand nr — 00. 


Or, nous avons 

PIS, —S1I>Ee << P(| Sn — S | > Eepouraumoinsunm > n), 

d'où il résulte la convergence (p.s.) de la série {S,} vers S. 
L'affirmation inverse n'est pas vraie dans le cas général. 


Exemple 2*). Soit S, une variable aléatoire prenant deux valeurs 
possibles, 0 et 1, avec les probabilités 1 — (1/7) et 1/n respectivement, et telle 
que pour tous les enticrs n,, ..., nr, les variables aléatoires S, , . .., S,,sont 


sn 


*) Les exemples 2 et 3 sont empruntés au livre de M.S. Bartlett [3]. 
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indépendantes. La suite {S,} converge (P.) vers 0, étant donné que pour tout e, 
0<e<i, nous avons 


P(ISn (>8)=P(Sn=1=— 0 pour n—> co. 


Toutefois, cette suite ne converge pas (p.s.) vers 0. En effet, pour tout e, 0 < e < 
< 1, nous avons 


P(ISmi<e, Vm>nr)<P(ISmi<e, Vm n<m<N)= 


N 
: CA ni nn N—2N—4 n—! 
PRE ar on à 
m=n 


Il en découle, en vertu du caractère arbitraire de W, que pour tout n la probabilité 
P(ISmi<e& Vm> n) est inférieure à tout nombre positif aussi petit que 
l'on veut. Or, cela signifie que la probabilité de la convergence de la suite {S,,} 
est égale à 0, autrement dit que {S,} ne converge pas (p.s.) vers 0. 

Remarquons que la suite {S,) dans ce cas précis converge (m.q.) vers 0, 
étant donné que M | S, |* = 1/r —+ 0 quand nr —+ œ. Nous avons ainsi un exem- 
ple de suite de variables aléatoires convergente (P.) et (m.q.), mais non con- 
vergente (p.3.). 

Exemple 3. Soit S, une variable aléatoire prenant deux valeurs pos- 
sibles, O0 et r, avec les probabilités 1 — (1/n)° et 1/n? respectivement. La suite 
{SA} converge (P.) vers 0, étant donné que pour tout & > 0 et tout n suffisam- 
ment grand on a 


P(LSn1>)=P(Sn=n)= — quand n—> 5. 


La suite {S,} converge également (p.s.) vers 0, étant donné que 
P(ISmi>e pour au moinsun m>nr)< 


O0 O0 
+ Â . 
< D P(Sm=m)= D ee 0 quand no 


m=n m=n 


et, qu conséquent, P (| SIm<e,V m> nr) —+ 1 quand nr — ,ce qui démon- 
tre la convergence de la suite {S,} vers 0 avec une probabilité 1, c’est-à-dire la 
convergence (p.s.). 

Toutefois, la suite {S,} ne converge pas (m.q.) vers O0, étant donné que 
M | Sh | = 1 pour tout n. 

Exemple 4. Soit S, une variable aléatoire prenant les valeurs 0 et 1, 
avec les probabilités 1 — (1/7?) et 1/n°. Montrer que la suite {S,} converge 
vers 0 (P.), (p.s.) et (m.q.). 


Les exemples que nous avons cités montrent qu'une suite de 
variables aléatoires peut être convergente (P.), mais non convergente 
(m.q.) ou (p.s.); elle peut être convergente (p.s.), mais non conver- 
gente (m.q.) et inversement. Ainsi, la classe de suites convergentes 
(m.q.), de même que la classe de suites convergentes (p.s.) sont des 
sous-classes de suites convergentes (P.), et cela de sorte que ces deux 
sous-classes ont une intersection non nulle. 

En vertu de (3.29), nous avons 


MIS —SF—-D(S, —S)+]|MS, — MS F, (2) 
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de sorte que pour la convergence (m.q.) d'une suite de variables aléatoires 
{S,} vers S il est nécessaire et suffisant que la suite d'espérances matihé- 
matiques {\IS,} converge vers MS et que la suite de variances des diffé- 
rences S, — S converge vers 0. 

Il découle également de (2) que pour la convergence (m.q.) de 
la suite de variables aléatoires {S,} vers une grandeur non aléatoire 
a, il est nécessaire et suffisant que la suite d’espérances mathéma- 
tiques {MS,} converge vers a et que la suite de variances {DS,} 
converge vers U. 

La convergence en probabilité, la convergence en moyenne quadra- 
tique et la convergence presque sûre représentent des formes particu- 
lières probabilistes de la convergence. Dans le cas particulier des 
suites de variables non aléatoires, ces trois formes de convergence 
coïncident avec la convergence usuelle. Ainsi, chacune des trois 
formes de convergence probabiliste représente une généralisation 
naturelle de la notion habituelle de convergence pour les variables 
aléatoires. 


$ 2. Estimation des caractéristiques statistiques 


2.1. Estimations. On considère habituellement en statistique 
mathématique uniquement des variables aléatoires réelles. Cela 
ne limite pas la généralité, étant donné que toute variable aléatoire 
complexe peut être considérée comme un vecteur aléatoire bidimen- 
sionnel à coordonnées réelles. C'est pourquoi nous considérerons 
partout dans ce chapitre toutes les variables aléatoires, y compris les 
fonctions des variables aléatoires, comme des variables réelles. 

Nous considérerons toujours les résultats des épreuves comme des 
variables aléatoires. C'est pourquoi nous noterons les résultats des 
épreuves et toutes les fonctions des résultats des épreuves par des 
lettres majuscules. Lors de l'application pratique des formules obte- 
nues, il convient de remplacer dans ces formules toutes les variables 
aléatoires par leurs réalisations obtenues à la suite des épreuves 
réalisées. 

Toute fonction des résultats des épreuves qui ne dépend pas des 
caractéristiques statistiques inconnues est appelée statistique. 

On appelle estimation de la caractéristique statistique 8 une 
statistique dont la réalisation obtenue à l'appui des épreuves est 
adoptée comme la valeur réelle inconnue du paramètre 6. 

Ïl est clair que n'importe quelle statistique ne peut servir d'esti- 
mation pour une caractéristique statistique donnée. Comme les ré- 
sultats des épreuves sont aléatoires, toute statistique représente 
une variable aléatoire. Pour qu'une statistique puisse servir d'esti- 
mation à une caractéristique statistique donnée 8, il faut que la 
distribution de cette statistique soit concentrée dans une proximité 
suffisante de la valeur inconnue 6, de sorte que la probabilité de 
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grands écarts de cette statistique de 6 soit suffisamment faible. 
Dans ce cas, une application systématique répétée de cette statistique 
en qualité d'estimation de la caractéristique donnée permettra 
d'obtenir en moyenne une précision suffisante. La probabilité des 
grands écarts sera faible et elle se rencontrera rarement. Il est encore 
souhaitable qu'en augmentant le nombre des épreuves la précision 
des résultats de l'estimation augmente. Cela fait que l’on est con- 
duit aux définitions suivantes relatives aux estimations. 

Une estimation de la caractéristique statistique 6 est dite con- 
sistante si elle converge en probabilité vers 6 quand le nombre d'épreu- 
ves rz augmente indéfiniment. 

Pour que l’estimation de la caractéristique 6 soit consistante, il 
suffit que son espérance mathématique tende vers 8 et que sa variance 
tende vers 0 quand le nombre d'épreuves n augmente indéfiniment. 
Cela découle directement des résultats du point 1.3. 


L'estimation @ de la caractéristique statistique 6 est dite sans 
biais si son espérance mathématique est égale à 6 pour tout nombre 


donné d'épreuves n. L'estimation Ô de la caractéristique 6 est dite 
biaisée si son espérance mathématique n'est pas égale à 60. La diffe- 


rence A6 — 6 est appelée le biais de l'estimation 6. 

On caractérise souvent la qualité de l'estimation par l’espérance 
mathématique du carré du module d'écart de l'estimation à la carac- 
téristique estimée (erreur quadratique moyenne): 


=M|6—-8/F. 


æ 
Dans le cas d’une estimation sans biais @, l'erreur quadratique moyen- 


ne Ô représente la variance de l’estimation @ dans le cas d’une 
caractéristique scalaire 6 et la somme des variances des coordonnées 


de l'estimation à dans le cas d’une caractéristique vectorielle 6. 
L'ensemble des nombres ô correspondant à toutes les estimations 


© de la caractéristique donnée 6 pour un nombre donné d'épreuves n, 
possède, de même que tout ensemble de nombres non négatifs, une 
borne inférieure exacte 


6, = inf M | —0 [2. 
tÔ 


11 semble naturel de vouloir utiliser des estimations telles que l'erreur 
quadratique moyenne 6 soit ou bien égale à ô,, ou bien proche de ô,. 
Il s'avère utile, dans de nombreux cas, pour trouver de telles esti- 
mations, d'utiliser la notion de statistique suffisante. 

2.2. Statistiques suffisantes. La statistique S (scalaire ou vecto- 
rielle) est dite suffisante De la caractéristique 8 si, pour tout choix 
d'une autre statistique S (également scalaire ou vectorielle) pour 
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laquelle il n'existe pas de dépendances de la forme 1: (S, S”) = O, la 
distribution conditionnelle de la statistique S” pour une valeur don- 
née s de la statistique S ne dépend pas de 6. En d’autres termes, la 
statistique S est suffisante si la connaissance des valeurs de toutes 
autres statistiques n'apporte aucune information complémentaire 
au sujet de 6 en plus de celle qui est contenue dans S. 

Si une statistique suffisante existe, alors elle ne peut être déter- 
minée univoquement. 

> En effet, supposons que la statistique S soit suffisante. Alors, 
en vertu de (4.16), la densité de probabilité conditionnelle de toute 
statistique S” pour une valeur donnée s de la variable S est définie 
par la formule 

, f(s, s’ 16) 
fa (S | s) = fit(s10) 9 (3) 

où f (s,s’ | 6) est la densité de probabilité conjointe des variables S, 
S”, dépendant du paramètre 8, et f, (s | 6) est la densité de probabilité 
de la variable aléatoire S. Le premier membre de la formule (3) ne 
dépend pas de 0 du fait que la statistique S est suffisante. Considérons 
une autre fonction S, — œ (S) de la statistique S telle que l’équa- 
tion s, — Œœ(s) admette une solution unique s — œ!{(s,) dans le 
domaine des valeurs possibles de la variable S. En utilisant la for- 
mule (5.31), nous trouvons la densité de probabilité de la variable S, 
et la densité de probabilité conjointe des variables S,, S”: 


&1 (1 18) = fi (P* (1) 10) 17 (s1) À, 
g (sas s 18) = f (pr (5), s 16) 17 (si) |, 


où J (s,) est le jacobien des coordonnées de la fonction @"! (s,) par 
rapport aux coordonnées du vecteur s,. La densité de probabilité 
conditionnelle de la statistique S” pour une valeur donnée s, de la 
statistique S, est déterminée, conformément à (4.16), par la formule 


, _ gs s 10) _f(pT'(s1), s”° 1 6) 
8:(S 1s1)— ga (s11 8)  f1(p1(s1) 10) ” 
En comparant cette formule à (3), nous obtenons 


g2 (S |Sihi= fa (S° | PT? (s1)) 
Etant donné que le second membre de cette formule ne dépend pas 
de 6, alors le premier membre ne dépend pas non plus de 6, ce qui 
démontre le fait que la statistique S, —  (s) est suffisante. 
Ainsi, toute statistique liée à une statistique suffisante par une 
dépendance biunivoque est également une statistique suffisante. 
Démontrons que si la densité de probabilité conjointe des résultats 
des épreuves X,,..., X, peut être représentée sous la forme 


£ (Ts... Zn | 0) = À (p (21, +, Zn) | 0), 
alors la statistique S — œ (X,,..., X,) est suffisante. 


$ 2] ESTIMATION DES CARACTERISTIQUES STATISTIQUES 217 


D Soit S° — 1 (X,, ..., X,) une statistique quelconque, pour 
laquelle il n'existe pas de dépendances de la forme % (S, S”) = 0. 
Supposons tout d'abord que la somme des dimensions des vecteurs S 
et S” soit égale à la somme des dimensions des vecteurs X,,..., X, 
et que pour toutes valeurs s et s’ dans le domaine des valeurs des 
fonctions q et 1 les équations 


® (z:; . Tn) — $, Ÿ (Z1  . Tn) = s 


admettent un ensemble de solutions {xf° (s, s’), k = 1, ..., n}; 
LEZ (s,s"). Dans ce cas, la densité de probabilité conjointe des varia- 
bles S et S” est déterminée par la formule (5.34): 


G s19= 2 8(0 (6 5)... ms, s°) 18) J1(s, s°)| 


où J (s, s’)est le jacobien des coordonnées des fonctions vectorielles 
Os, s°), . . ., xQ) (s,s") par rapport aux coordonnées des vecteurs s 
ets, LET(s, s’). Or, nous savons que 
ga (s, s°), ..., 2 (s, s’) | 6) — 

= h(p(x (s, s’),..., 2x (s, s’))|[8)=A(s]0), 


étant donné que les fonctions x, = 24) (s,s"), ..., x, = 20 (s, s'), 
lLET (s, 5’), vérifient les équations 


Ds tles, Vis udm)ess. 
Nous avons par conséquent 
fs, s)19=R(SIS) à 1Ji(s s)1. 


Nous en tirons, en intégrant sur s’, la densité de probabilité de la 
variable aléatoire S : 


fa(s19=R(SI6) | D [Jits, s')1ds’. 


Ÿ JET (ss) 


Il découle des formules obtenues que la densité de probabilité condi- 
tionnelle de la variable S” pour un s donné 


fs 193 =f(s, s 18) (516) 


ne dépend pas de 6, ce qui démontre que la statistique S est suffisante. 
On démontre exactement de la même façon que Ja statistique 
S = (Xi + «+» Àn) est suffisante dans le cas où la somme des di- 
mensions des vecteurs S et S” ne coïncide pas avec la somme des 
dimensions des vecteurs X,, ..., X,. 4 
2.3. Intervalles et domaines de confiance. Comme nous l’avons 
déjà dit au point 1.1, le caractère aléatoire des épreuves rend impossi- 
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ble le fait de trouver des limites suffisamment étroites pour lesquel- 
les nous puissions affirmer avec une garantie complète que l'erreur 
d'estimation (c’est-à-dire l'écart de l'estimation à la caractéristique 
à exprimer) y resterait confinée. C’est pourquoi se présente le pro- 
blème de la détermination à partir des résultats des épreuves des 
limites telles que l'erreur d'estimation n'en sorte pas avec une pro- 


babilité donnée. Par exemple, en adoptant la fréquence P d'un évé- 
nement en qualité d'estimation de sa probabilité p, il serait souhai- 
table d'établir à partir des résultats de ces mêmes épreuves une telle 


limite des écarts possibles de P à p que le module de l'erreur | P — pl 
lui reste inférieur avec une probabilité donnée &. Cette limite sera 
naturellement également aléatoire en vertu du caractère aléatoire 
des résultats des épreuves. Ainsi, il s’agit de trouver, à partir des 
résultats des épreuves, un intervalle aléatoire (c'est-à-dire un inter- 
valle dont les extrémités sont aléatoires) tel qu'avec une probabilité 
donnée «& il contienne la valeur inconnue de la probabilité p. 

L'intervalle aléatoire entièrement déterminé par les résultats des 
épreuves et ne dépendant pas de caractéristiques inconnues, qui 
recouvre avec une probabilité donnée & la caractéristique statistique 
scalaire inconnue 6, est appelé intervalle de confiance pour cette 
caractéristique correspondant au coefficient de confiance «a. La 
quantité 1 — « est appelée niveau de signification de l’écart de l’esti- 
mation. Les bornes de l'intervalle de confiance sont appelées limites 
de confiance. 

La généralisation de la notion d'intervalle de confiance au cas 
d’une caractéristique vectorielle 0 conduit à la notion de domaine de 
confiance. 

On appelle domaine de confiance pour une caractéristique vecto- 
rielle 6 correspondant au coefficient de confiance à tout domaine aléa- 
toire entièrement déterminé par les résultats des épreuves et ne dépen- 
dant pas de caractéristiques inconnues, qui contient, avec une proba- 
bilité &«, la valeur inconnue 86. 

Il est évident que le domaine de confiance est défini par le coeffi- 
cient de confiance « de façon non univoque; il existe un ensemble 
infini de domaines de confiance correspondant à une seule et même 
valeur de &. On s'efforce habituellement de définir les domaines de 
confiance possédant les dimensions minimales pour une probabilité 
donnée «&. Cette condition est souvent vérifiée approximativement 


par les domaines symétriques par rapport à l'estimation 8 dela 
caractéristique 6. 

2.4. Méthodes de détermination des domaines de confiance. Pour 
déterminer les intervalles et les domaines de confiance, on utilise 
habituellement trois méthodes principales. 

La première méthode, qui est commode dans le cas d’un para- 
mètre scalaire positif 6, est basée sur la recherche de la distribution 
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du rapport de l'estimation © du paramètre 8 à ce même paramètre 0. 
Si l'estimation @ est telle que cette distribution ne dépend pas des 
caractéristiques inconnues, alors, connaissant cette distribution, on 
peut trouver la probabilité d'appartenance du rapport 9/6 à tout 
intervalle et, inversement, à partir d’une probabilité donnée «, 


trouver l'intervalle tel que la probabilité que 9/8 lui appartienne 
soit égale à &. Tout intervalle de ce genre sera un intervalle de con- 
fiance pour 8. On s'efforce habituellement d'obtenir un intervalle de 
confiance symétrique par rapport à l’estimation. Cela n’est toutefois 
pas toujours possible. En certains cas, la limite de confiance infé- 
rieures'avère négative, ce qui n’a pas desens. C’est pourquoi l'intervalle 
de confiance pour un paramètre positif 0 est défini par la formule 


max 40, (1 — e)O} < 0 < (1 + e,)0. (4) 


Quand e, € (0, 1}, cet intervalle est symétrique par rapport à 6. 
Quand &e, >> 1, cette symétrie n'existe pas. L'inégalité (4) est véri- 
fiée si et seulement si 


1 
max {0, 1—ec} ° 


1 f) 
Tree < 6 — 


C’est pourquoi la formule (4) définit un intervalle de confiance pour 8 
correspondant au coefficient de confiance &, si €, vérifie l'équation 


1 
P(—— TL Ex + O max {, —s)-< 


La seconde méthode consiste en ce que pour chaque valeur possi- 
ble du paramètre inconnu 6 on choisit un domaine contenant 6 tel 


que la probabilité que l'estimation © lui appartienne soit egale à «. 
Dans le cas général, ce domaine dépend de 6, et, bien entendu, de «. 
C'est pourquoi nous le noterons D, (8). Nous pouvons alors écrire 


P(BED, (8) = «. 


On détermine ensuite, pour chaque valeur fixée de l'estimation 6, 
un ensemble de valeurs du paramètre 0 pour lesquelles 6ô € D, (8). 
Cet ensemble {6 : 6 € D, (8)} dépend, dans le cas général, de 6 et 
de a. C'est pourquoi nous le noterons A, (6). Il est évident que 
BEA, (8) si et seulement si 8 € D, () pour ce 6. En effet, si, pour 
une valeur donnée de 6, l'estimation é prend une valeur 6 € D, (8), 
alors par définition du domaine A, (8) la valeur donnée de 6 appar- 
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tient à A, (6), 6€ {6 Ê ED (8)} = A, (8). Inversement, si l’estima- 
tion 6, a pris une valeur 6 a queBE A, (6) = {p:6 € D, (8)}, 
alors 8 € D, (8). Nous avons par conséquent pour tout 6 


P(BEA, (8) = P(ÊED, (8) = «. (5) 


Cette égalité montre que le domaine A, (6) représente un domaine de 
confiance pour le paramètre 6 correspondant au coefficient de con- 
fiance «. 

La troisième méthode est basée sur la recherche d’une fonction 


scalaire (à, S, 0) de l’estimation Ô, d’une autre statistique S et du 
paramètre inconnu 6 possédant les propriétés suivantes : 
1) pour toutes les valeurs s de la statistique S et pour toute va- 


leur 0 l'inégalité (6, S, 8) << c,c, > 0, détermine, quand c croît, une 
famille monotone croissante de domaines emboîtés D (s, 6, c) = 


= {6:p (8, s, 0) <c}; 
2) œ (6, s, 0) — O pour tous, s, 6 et  (ô, s, 8) > 0 pour tous 


Ô, s, 0, 606 et, par conséquent, le point ô —0 appartient au 
domaine D (s, 6, c) pour tous les c > 0,5, 6; 


3) la distribution de la variable aléatoire T — ® (6, S, 6) ne 
dépend pas de 6. 


Connaissant la distribution de la variable T — (6, S, 8), on 
peut déterminer un €, >> 0 tel qu'avec une probabilite «& soit vérifiée 


l'inégalité p (6, S, 8) < €, : 
P(p(8, S, 8) <e,) = a. (6) 


Cette formule détermine un domaine aléatoire q (98, S, 8) < & 
recouvrant la valeur inconnue du paramètre 8 avec une probabilité «, 
c'est-à-dire le domaine de confiance de 6 correspondant au coeffi- 
cient de confiance «. 

Il est difficile de se représenter les domaines de confiance multi- 
dimensionnels. C’est pourquoi le problème se pose de trouver des 


intervalles de confiance Z, (@), ..., I, (@) pour les coordonnées 
6,,..., 0, du paramètre vectoriel 0 tels que les intervalles correspon- 
dants recouvrent simultanément tous les 6,, . .., 6, avec une probabi- 
lité non inférieure à une valeur & donnée (c'est-à-dire de rechercher 
un domaine de confiance rectangulaire pour O0 correspondant au 
coefficient de confiance non inférieur à @). 


Introduisons les événements 4, = {0, € J, (8)} (=, ::: 0) 
et désignons le domaine rectangulaire dans l’espace à r dimensions 
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étés 


formé par les intervalles J, (8), ..”, 1, (8) par J (8). En vertu du 
principe de dualité et de la propriété de semi-additivité des probabi- 
lités (1.13), nous avons 


F 


P(BEI (8) =P QU A;)=1—P QU A)>1— À P (A). 


Il en découle que, pour la solution du problème posé, il suffit de 


rechercher les intervalles de confiance Z, (8), . .., ZI, (6) pour les 
coordonnées du vecteur 6 correspondant au niveau de confiance 
4 — (14 — a)/r). Dans ce cas, la probabilité de recouvrement simulta- 
né par ces intervalles de toutes les valeurs 6,. . .., 0, ne sera pas 
inférieure à &. En fait, dans de nombreux cas, elle peut être nota- 
blement supérieure à & *). 

La principale difficulté dans l'application pratique des méthodes 
exposées est la recherche des distributions des différentes statistiques, 
en particulier des estimations. À l'heure actuelle, ces questions ne 
sont suffisamment bien élaborées que pour le cas de la distribution 
normale des variables aléatoires observées. 

Lors de la détermination des estimations des caractéristiques 
statistiques et de leurs domaines de confiance à partir des résultats 
des épreuves, on considère habituellement que les épreuves sont 
indépendantes au sens de la définition donnée au paragraphe 1.8. 
Conformément à cette définition, nous estimerons que les épreuves 
sont indépendantes si la probabilité de tout événement et la distribu- 
tion de toute variable aléatoire au cours de chaque épreuve ne dépen- 
dent pas des résultats des épreuves précédentes. Nous supposerons en 
outre que les probabilités des événements observés et les distribu- 
tions des variables aléatoires observées ne sont pas modifiées d’une 
épreuve à l’autre. Ainsi, partout dans ce qui suit, nous allons consi- 
dérer que les résultats aléatoires des différentes épreuves sont des 
événements indépendants et des variables aléatoires possédant les 
mêmes probabilités et les mêmes distributions au cours de toutes 
les épreuves. 

La recherche des estimations des caractéristiques statistiques est 
appelée habituellement estimation ponctuelle et la recherche des 
intervalles de confiance estimation d'intervalle. 


$ 3. La fréquence comme estimation de la probabilité 


3.1. Consistance. Soit p la probabilité inconnue de l'événe- 


ment À qui nous intéresse, P la fréquence de cet événement au cours 
de nr épreuves, considérée comme une variable aléatoire, une fonction 
des résultats aléatoires des épreuves. 


*) Le lecteur trouvera d'autres méthodes pour rechercher les intervalles 
de confiance simultanés pour les coordonnées d'un paramètre vectoriel dans [103]. 
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> Pour étudier la fréquence P comme une estimation de la pro- 
babilité de l'événement, utilisons les formules de l’espérance mathé- 
matique et de la variance de la fréquence que nous avons obtenues 
dans l'exemple 3.11: 


MP-p, DP—2, qg—1—p. (7) 


Nous remarquons que l'espérance mathématique de la fréquence d’un 
événement est égale à sa probabilité et la variance de la fréquence 
tend vers O0 quand le nombre des épreuves n croît indéfiniment. Par 
conséquent, la fréquence d’un événement converge en (m.q.) vers 
sa probabilité quand 7n— co. Mais il découle de la convergence en 
(m.q-) la convergence en probabilité (P.). 

Ainsi, la fréquence d'un événement converge en (P.) vers la proba- 
bilité de cet événement quand le nombre des épreuves n croît indéfiniment. 
C'est là le contenu du théorème de Jacques Bernoulli, le premier et le 
plus simple de la série des théorèmes réunis sous l'appellation loi des 
grands nombres, qui établit la convergence probabiliste des caracté- 
ristiques statistiques expérimentales vers les caractéristiques théori- 
ques correspondantes. Ainsi, la loi des grands nombres confirme 
notre représentation intuitive relative à la stabilité des fréquences 
des événements et aux caractéristiques des variables aléatoires et, 
par cela même, pose les fondements de toutes les applications prati- 
ques de la théorie des probabilités. 

En vertu du théorème démontré par Jacques Bernoulli et de la 
première formule (7), la fréquence d'un événement est une estimation 
consislante, sans biais de sa probabilité. Plus encore, comme nous 
allons voir au paragraphe 7.1, la fréquence représente une estimation 
sans biais de la probabilité avec une variance minimale. C'est pour- 
quoi aucune autre estimation de la probabilité n’est généralement 
utilisée. @ 

Arrétons-nous un peu plus en détail sur la signification des con- 
clusions découlant de l’étude réalisée. Il découle du théorème de Ber- 
noulli que pour tous €, ô > 0 et pour tout nombre d'épreuves nr 
suffisant grand on a l'inégalité 


P((P—pl|>e) <6. (8) 


En vertu du choix arbitraire de € et Ô et du principe de la confiance 
pratique, il en découle que pour un nombre suffisamment grand 
d'épreuves 7 l'obtention d’un écart de la fréquence à la probabilité 
dépassant en valeur absolue un nombre & arbitrairement petit fixé 
à l'avance peut être considérée comme un événement impossible. 
C'est sur cela qu'est basée l’utilisation de la fréquence en qualité 
d'estimation de la probabilité d’un événement. 
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3.2. Intervalles de confiance. Pour trouver les intervalles de 
confiance pour la probabilité on utilise habituellement la seconde 
méthode du point 2.4. 

> Pour chaque valeur de la probabilité p € (0, 1), on définit un 
intervalle D, (p) — (a, (p, b, (p)) dont les extrémités sont détermi- 
nées à partir des conditions 


P(Î<a(p))=F (ax (P)<1—<+, 
P(P>ba(p)=1—F(ba(Ph<1—+., 


où F (x)est la fonction de répartition de la fréquence, c'est-à-dire la 
fonction de répartition de la distribution binomiale. 


(9) 


F (x) — S Crpra ri (2-7). 
m=0 


Nous aurons alors 
P(PED, (p)}=P (a. (p) <P<b,(p)>a. 


Le signe > ici au lieu de — et respectivement < dans (9) provient 
du fait que, par suite du caractère discret de la fréquence, les égalités 
exactes, en règle générale, ne sont 
pas accessibles. Pour déterminer 
l'intervalle de confiance corres- 


pondant A, (2) — {p:a, (p)< 


<P< b,, (p)} il suffit de trouver 
ses limites en résolvant les inéga- 


lités a, (p)< P et P < b, (p) 
par rapport à p. Au lieu de cela, 
on utilise habituellement la con- 
struction graphique suivante: 
on détermine a, (p)et b, (p) 
pour chaque p € (0, 1), on con- 
struit dans le système de coor- 


données  (p, p) les courbes 


p = a, (p) et p = b, (p) (fig. 26). Fire. 26 

Ces courbes définissent, pour LE 

chaque valeur de p, sur la droite 

verticale correspondante un intervalle D, (p) — [aa (p), b, (p)). Il est 


évident qu'inversement, pour chaque valeur P de la fréquence P 
ces courbes déterminent sur la droite horizontale correspondante un 


intervalle A, (p) — {p :p € fa, (p), be (p))}, représentant la réali- 
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sation de l'intervalle de confiance A, (P) correspondant à une réa- 
lisation donnée p de la fréquence P (fig. 26). 
En vertu du caractère discret de la fréquence, les courbes p — 


— dx (p)}, p —b, (p) sont des courbes en escalier, et la hauteur de 
chaque escalier est égale à 1/n, la largeur de chaque escalier est égale 
a la longueur de l'intervalle correspondant des valeurs p pour les- 
quelles les a, (p) (respectivement b, (p)) conservent une valeur cons- 
tante jusqu'à la variation suivante par un saut de longueur 1/n. 
Toutefois, pour des raisons de simplicité, on les remplace habituelle- 
ment par des courbes continues. Les graphiques servant à déterminer 
les intervalles de confiance pour l'estimation des probabilités ont 
été construits par Clopper et Pearson [37] pour les valeurs & — 0,95 
et « —= 0,99. 

3.3. Détermination approchée des intervalles de confiance. Quand 
le nombre d'épreuves n est grand (pratiquement quand nr > 100), 
la détermination des intervalles de confiance pour p se simplifie 
notablement. Comme on l’a montré dans l'exemple 5.46, la dis- 
tribution de la variable aléatoire Y = V n ( — p)/ V pq = 
==(X — np}/V npgq tend vers la distribution normale NV (0, 1) quand 
n — co. Cela fait que la distribution binomiale pour un nombre suffi- 
samment grand d'épreuves n diffère aussi faiblement que l'on veut 
de la distribution normale. Cela permet, pour de grandes valeurs 
de n, d'utiliser la fonction de répartition normale au lieu de la 
fonction binomiale exacte pour la détermination approchée des 
intervalles de confiance pour la probabilité. 


> En supposant que la fréquence À est distribuée normalement, 
nous obtenons, en vertu de la symétrie de la distribution normale et 
de la formule (7), la relation 


aa (P}=p—EaV pain, ba(p)=p+eaV pg'n, 


où &, est défini en vertu de (3.93) par l'équation 
P (1Ê—p)1< £a y Æ#) 20 (&)=0. (10) 


La racine €, de l'équation (10) est déterminée pratiquement à l’aide 
de la table 3 *). Comme €, ne dépend pas de p, les courbes p = Ga (P) 
et p = b, (p) représentent dans ce cas une portion de l’ellipse 
n (p — p}° = eëp (1 — p) du centre au point p = p = 1/2, tan- 
gente aux droites verticales p = 0 et p = 1 (fig. 27). Les limites de 


*) Quand on emploie l'ordinateur pour déterminer e,, on peut utiliser le 
programme d'’inversion de la fonction de répartition normale NDTRI [94]. 
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confiance P,, P, sont dans ce cas aisément calculées à partir de 
l'équation de l’ellipse en la résolvant par rapport à p: 


P +- e°/2n 


: Ea P(1—P) , % 
Fi CS TS € (11) 


Exemple 5. Au cours de 100 épreuves, l'événement À a été réalisé 68 
fois. Ainsi, la fréquence P de l'événement À a pris la valeur 0,68. Trouvons 
l'intervalle de confiance pour la proba- 
bilité p = P (4) correspondant au coef- p 
ficient de confiance & — 0,95. Comme ; 
le nombre d'épreuves »r est grand dans 
ce cas, on peut considérer que la fré- 


quence P est distribuée approximativement 
normalement et appliquer la méthode 
approchée. Conformément à (10), nous 06 
trouvons, à partir de la table 1 de la 
fonction de Laplace © (u), la valeur e,, Gé 
de l'argument zu pour lequel elle est 
égale à æ/2 — 0,475. Nous obtenons 

e, — 1,96. Nous trouvons alors, d'après 0,2 
la formule (11), P, = 0,583, P, & 0,763. 

Ainsi, l'intervalle de confiance pour la 
probabilité p — P (A) correspondant au 02 0,4 06 08 1p 
coefficient de confiance «œ — 0,95 est a 

dans ce cas l'intervalle (0,583; 0,763). Fig. 24 

Cet intervalle représente la réalisation 

de l'intervalle aléatoire (P,, P,) qui, avec une probabilité «œ = 0,95, 
recouvre la probabilité inconnue p = P (À). 


0,8 


La seconde formule (7) montre que l’écart quadratique moyen de 


la fréquence est inversement proportionnel à V n. Par conséquent, 
la précision de l'estimation de la probabilité augmente avec l’ac- 
croissement du nombre d'épreuves proportionnellement à V/ #. Comme 


nous le verrons plus tard, cette loi s'étend également aux moments 
du premier et du second ordre des variables aléatoires. 


$ 4. Estimations de l’espérance mathématique 
et de la variance d’une variable aléatoire 


4.1. Estimation de l’espérance mathématique. Une estimation 
naturelle de l'espérance mathématique d’une variable aléatoire X est 
la moyenne arithmétique de ses valeurs expérimentales X,,..., X, 
(la moyenne d'échantillonnage) 

n 


5 1 
À = ru D Xr: (12) 
h=1 
> Pour étudier cette estimation, nous ferons appel aux formules 
de l'espérance mathématique et de la variance de la moyenne ari- 
15—0244 
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thmétique que nous avons obtenues dans l'exemple 3.12: 


MX=m, DX-2z. (13) 


n 


Il en découle que la moyenne d’échantillonnage d’une variable aléatoi- 
re converge (m.q.) vers son espérance mathématique quand n7—+ co. 
Mais il découle de la convergence (m.q.) la convergence (P.). 

Nous avons ainsi démontré le théorème de Tchébychev : la moyen- 
ne d'échantillonnage d'une variable aléatoire dont les moments du 
premier et du second ordre sont finis converge (P.) vers son espérance ma- 
thématique quand le nombre d'épreuves n croît indéfiniment. 

En vertu du théorème de Tchébychev et de la première formu- 
le (13), la moyenne d'échantillonnage représente une estimation consis- 
tante sans biais de l'espérance mathématique d'une variable aléatoire. 

Le théorème de Tchébychev nous a permis de démontrer que la 
moyenne d'échantillonnage n'est une estimation consistante de 
l'espérance mathématique que dans le cas où la variable aléatoire 
observée X possède une variance finie. Cette condition n'est toute- 
fois pas nécessaire. Khintchine a démontré que la moyenne d’échan- 
tillonnage converge en probabilité vers l'espérance mathématique de 
la variable aléatoire observée également dans le cas où elle ne possède 
pas une variance finie [45]. 

Ces résultats sont également vrais dans le cas où la variable 
observée X est vectorielle, car une suite de vecteurs converge siet 
seulement si les suites de leurs coordonnées correspondantes con- 
vergent. 

4.2. Estimations de la variance. Une estimation naturelle de la 
variance d’une variable aléatoire est sa variance d'échantillonnage 


= D (XX). (14) 


> Pour calculer l’espérance mathématique et la variance de cette 
estimation, en tenant compte du fait que MX, = MX = m,, repré- 
sentons (14) sous la forme 


Di=+Y COR) (XR)2— 2X0 S'Xt+n y: ]= 


k=1 Ræ1 lei 


= 25 (x (Rp. 
h=1 
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Nous aurons alors 


+ 


MDi=< 3 M(XY—M (Roy = 


h=1 
1 S Cr D, n—1 
=— >, DX,-—-DX=— = — D, 
kh=1 
Nous avons ainsi obtenu 
MD;=2— D.. 4 (45) 


Cette formule montre que DX est une estimation biaisée de la va- 
riance D, avec un biais égal à — D,/n. 


> Pour calculer la variance de l’estimation D*, trouvons tout 


d'abord son moment du second ordre AD*2. En ayant en vue le 
fait que 


D [S ape Eos 3 (He + (Ron, 
hk=1 
MD cafe D era 
k=1 he, 1=A 


n 


=} MX + DZ MOXPM (X= nu tn(n--1) pi 


k=1 CET 


[x S CUS LS S XPXS (X2)? = 


k=1 .l, h=1 
= (2 MGN+ D Mae (pe ]= te 
k=1 kæl 


pe Ée ‘4 
M Roy = + M > xi | = 
= [2 MODES D M RH QD] ESS, 


Où Us = D,, et u, désigne le quatrième moment centré de la varia- 
ble X, nous cs après quelques PHoisis élémentaires 


MDF = Qu + (2 —1) pl ++ [y + 3 (a — 1) pi]. 


15* 
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Nous trouvons alors à partir de la formule (3.29) la relation 
DDE = MDE — (M D?)? — 
_ HaHi __ 2(u4—2ni) " Ha — 35 << (16 


n n° n3 


Pour établir ces formules, nous avons utilisé l'indépendance des 
résultats des épreuves X,,..., X, et appliqué le théorème du pro- 
duit des espérances mathématiques (point 4.2.6). 

Les formules (15) et (16) montrent que MD*— D,, DDi— 0 
quand n—+ oo. Ainsi, l'estimation D converge (m.q.) vers D.. Il 
en découle la convergence (P.) de D vers D. c'est-à-dire La propriété 
de consistance de l'estimation D*. 

> Pour obtenir une estimation sans biais consistante de la va- 
riance D, il suffit, comme le montre (15), de multiplier l'estimation 
D? par n/(n — 1). Nous obtenons ainsi l'estimation 


7 1 - ? V\o _ 
Deer 2 (An — X}°. (11) 


En vertu de (16), la variance de cette estimation est définie par la 
formule 


te ns 2 (H4—2u5) Us, —3u5 
DD, Cr re 1 — ere TESTÉ (18) 
Dans le cas particulier d'une distribution normale de la variable 
aléatoire X, nous avons montré au $ 3.6 que u, = 3u°, et la formu- 
le (18) se met sous la forme 


DD. eu, (19) 


n—1 n—1 


Pour pouvoir comparer, calculons l'erreur quadratique moyenne 
de l’estimation biaisée D£ de la variance de D, dans le cas d'une 
distribution normale de X. Dans ce cas, compte tenu du fait que 
du, — 3u; — SD, nous obtenons de (15) et (16) la relation 


M (Di D.) = [M (Di —D,)P+ DD = EE D2. 


1l en découle que l'estimation biaisée DX est plus précise que l’esti- 


mation sans biais D. étant donné que (2n — 1}/n° << 2/n < 
<< 2/(n — 1). 

4.3. Intervalles de confiance ‘pour l’espérance mathématique. 
Le problème de la détermination des intervalles de confiance pour 
l'espérance mathématique et la variance pour un nombre arbitraire 
d'épreuves x n’est résolu que pour le cas de la distribution normale de 
la variable aléatoire X. 
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> Si la variance D, est connue, alors il est très simple de trouver 
l'intervalle de confiance pour l'espérance mathématique. Pour cela, 


il suffit de remarquer que la moyenne arithmétique X en tant que 
fonction linéaire de variables aléatoires normalement distribuées est 
normalement distribuée. C’est pourquoi, en vertu de (13) et (3.93), 
nous avons 


P (IX —m;. <Es y 2) — 20 (e,). 


Après avoir déterminé €, de la condition ® (e,) — «/2, nous obte- 
nons l'intervalle de confiance pour m, correspondant au niveau de 
confiance & sous la forme 


Xe, y 2: <m,<X+e V2. « (20) 


Quand le nombre d'épreuves nr est grand, cette méthode peut 
être appliquée pour la détermination approchée des intervalles de 
confiance pour m. pour toute distribution de la variable X, étant 
donné que pour une valeur élevée de nr la distribution de la varia- 


ble X est proche de la distribution normale ($ 5.4). 

L'estimation de l'espérance mathématique pour une valeur 
connue de la variance se présente lors de la mesure d’une variable 
à l’aide d’un instrument dont on connaît la précision. Dans ce cas, 
l'espérance mathématique des résultats des mesures est égale à la 
somme de la variable à mesurer et de l’erreur systématique de l’ins- 
trument, et la variance est égale à la variance connue de l'erreur 
instrumentale. 

> Pour trouver l'intervalle de confiance pour l'espérance mathé- 
matique m. dans le cas d'une variance inconnue D,, on utilise habi- 
tuellement la troisième méthode du point 2.4. Introduisons le vecteur 
à n dimensions des résultats des épreuves U — [X,, ..., X,)7T et 
la quantité S — UT U — nX°. 

Montrons que la variable aléatoire 


T=Vn CE 


représente le rapport de Student (exemple 5.12). Remarquons pour 
cela que pour tout aona 


2 (X, — X)? =2 [X,—a—(X —a)]? = 


n 


— > (X,—a)}?—2(X— a) px (X,—a)+n (X—a)}= 


hk=1 


= 2 (Xr—a)—n(X—a), 
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étant donné que 


ve 


(X,—a)=n(X—a). 


k=1 


En portant dans l'égalité obtenue une première fois a — m, et une 
deuxième a — 0, nous obtenons 


n 
à (X,—X X)°-- : È (X})2— n = > Xi— nX2, 
d'où il découle que 


(n—1)D,=5 (X,—X)2=UTU0— n(X02=UTU—nX2=S. 
hk=1 


Cette égalité montre que la quantité S peut être exprimée à l’aide du 
vecteur centré U®, de même que dans l’exemple 5.12, ce qui démon- 
tre notre affirmation. Par conséquent, la variable 7 suit une distri- 
bution T à k — n — 1 degrés de liberté, définie par la densité de 
probabilité 
; k+1 
r (= +1 ) -t 
(1+5+) 


var ( 


Comme cette distribution ne dépend pas des paramètres inconnus m,, 
D,, la variable T peut servir de fonction (, S, 8) du point 2.4: 
T=o(X, S,m)=Vn(n—1) _ 
Conformément au point 2.4 l'intervalle de confiance pour m, est 

maintenant défini par l'inégalité 


Sh (1) — T 


Vra-n te l< es (24) 
où €, est défini par l'équation 


ta 


P(ITI<Ea) — Sa (£a) = 2 | sn(#) dt = 0. (22) 
0 


On trouve pratiquement €, directement à partir de la table corres- 
pondante en entrant les valeurs de k et & (table 3). 

Pour transformer l'intervalle de confiance obtenu pour m., sous 
une forme plus commode, remarquons qu’à l'appui de ce que nous 
avons démontré précédemment nous avons 


S=(n—1)D.. (23) 


$ 4] ESTIMATIONS DE L'ESPERANCE MATHÉMATIQUE ET DE LA VARIANCE 231 


En portant cette expression dans (21), nous obtenons 


IX—m,|< ee Z., 
ou encore 
Xe V Cm; <X+e v : (24) 


C’est sous cette forme que l’on écrit habituellement l'intervalle de 
confiance pour l'espérance mathématique d’une variable aléatoire. 
Pour des valeurs élevées de k, la distribution T diffère peu de la 
distribution normale. En effet, nous avons 
: k+1 2 À 5 1 
Insz(t)=Inc,;— 2 In (1++)=me-t +0 le 


ke 


où c, est le facteur constant dans s, (t). Il en découle que 
+ 2 4 : 
su (1) = ca | e +0(—) |; 


et par conséquent sx (t)—> (2n)-V°e-t#"/? quand k—+ oo (c,— 
—+ (2x)-1/?, étant donné que s, (t) est une densité de probabilité 
pour tout # et la convergence du second facteur vers et‘/° est 
uniforme sur tout intervalle fini). < 

Ainsi, pour des valeurs élevées de k (pratiquement quand >> 120), 
la grandeur €, peut être déterminée, de même que lors de 
l'estimation de l'espérance mathématique en présence d’une variance 
connue, à partir de la condition ® (e,) = «x/2, en utilisant la table 1 
de la fonction de Laplace *). 

4.4. Intervalles de confiance pour la variance. Pour trouver 
l'intervalle de confiance de la variance D, on utilise habituellement 
la première méthode du point 2.4, en l'appliquant à l'estimation 


VD. de l'écart-type 0, = V D.. … 
> Comme la variable U = X°/V D, suit une distribution norma- 


le N (0, 1), alors, coformément au résultat de l’exemple 5.34, la 
variable 


Z = S/D, = (UTU — nX?)/D, 
suit une distribution du 4° à À = n — 1 degrés de liberté 


k 1 
| —-—: 
oh/2r (+) 


C1 


Pr (2) = 


*) Quand on utilise un ordinateur, pour déterminer e,, on peut se servir 
du programme d'inversion de la fonction de répartition normale NDTRI [94]. 
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C'est pourquoi, étant donné qu'en vertu de (23) on a DID. 
= S/(kD,) — Z/k et, par conséquent, 


(REV Der) - 


= (qe JE <2<m—x ): 


où on a noté pour des raisons de concision par (1 — €,); la variable 
max (0, 1 — e,); nous obtenons alors pour &, l'équation 


k 
FE (-es)i 
1 D. 4 : : _ 
d ( ie V &< (1—Ec)s | — la (Ga) = | pa G)d1=a. 
G+e 


(25) 

Nous en tirons l'intervalle de confiance pour l'écart-type et la va- 
riance : ER . 

max (0, 1—e,) V D. <V D, < (1+ee) V Ds. À (26) 

Pour déterminer le €, vérifiant l'équation (25), on a élaboré une 


table des valeurs €, en fonction de # et & (table 4). 
> Pour des valeurs élevées de 4, la distribution du % est proche 


de N (V(4 — 1)/2, 1/2). Pour démontrer cela, il suffit de montrer 


que la distribution de la variable T = V 2Z — V2k — 1 tend vers 
N (0, 1) quand k —+ oo. En utilisant la formule (5.31) nous trou- 
vons la densité de probabilité de la variable T': 


fn (= (+ V2k— À) pr (HV 3 )= 
1 
1 (6H e 
2 k 
er (+) 
Nous en tirons 

In fr ()=Imar+(k—1)ln(t+/2#—1)— 

——(t+V 2k—1)?=I1na;+ = In (2% — 1) + 


(+ V2 1): 


+ (k—1) In (1 + )—+(+V 2 1= 
= ]n b, + ———— = —— ——— CRIE t+0 (= t/2) = 


4 
k — cs 
=nb—+(s+s)#2+0 (41), 
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où l’on a noté a;,, pour des raisons de concision, le facteur constant 
dans l'expression de la densité de probabilité f, (£) et In b, la som- 
me de toutes les constantes obtenues par suite des transformations 
effectuées. On voit de cette formule que fy (t)}— (2n-1/*e-t/? quand 
k— oo, ce qui démontre notre affirmation. On peut considérer pra- 
tiquement que la variable V Z est distribuée normalement quand # > 
> 30. Dans ce cas, il est rationnel de renoncer à la symétrie par rap- 


port à l'estimation V D. de l'intervalle de confiance et de prendre 
un intervalle symétrique pour la statistique T — J 2Z—V 2k—1. 
Ainsi, après avoir déterminé €, à partir de l'équation P (| T | < 
< 84) = 20 (e,) — « et prenant en considération le fait que 
[t|<L'E, pour 
(V2k—1—e9) 


es 


(V'2k—1+ea)" 
SL — 9 


autrement dit pour 


V2 ire <V i< V'2k—1+e 


VE dk V 2k 
nous obtenons l'intervalle de confiance pour D, sous la forme 
V xD — V xD 
V2—1+2a <VD:< V2k—1—80 à SL 


Une estimation dont la distribution tend vers la distribution 
normale quand le nombre des épreuves nr croît indéfiniment, est 
appelée asymptotiquement normale. Ainsi, nous avons montré que 


l'estimation VD, de l’écart-type est asymptotiquement normale. 

4.5. Domaines de confiance pour l’espérance mathématique et la 
variance. Nous avons trouvé les intervalles de confiance pour l'espé- 
rance mathématique et la variance séparément. Toutefois, lors d’une 
estimation conjointe de l'espérance mathématique et de la variance, 
nous sommes intéressés par la probabilité que les deux paramètres m. 
et D, soient compris dans les intervalles correspondants. En d’autres 
termes, nous sommes intéressés par le domaine de confiance du 
vecteur bidimensionnel (m,, D,). Pour trouver ce domaine, nous 
utiliserons la seconde méthode du point 2.4. 

D Définissons le domaine D, (8) =D, (m., D,) sur le plan 


(X, V à.) sous forme d'un rectangle (fig. 28, a) 


Da(8)={(F, Di): A-m<ey/2e, Ye < 
<V 5,<#2 1, 


(1 — da)+ 
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Où (1 — Ô,)+ — max (0, 1 — ô,). Ici, le domaine 
Aa (8)={(mx, Da): (X, D;) € Da (0)} 
est défini par la formule 


A (8) = {(m D) : Im. —X]| <ee V2 
tn V D<VD< (+6 VD}. (28) 


Ce domaine représente un trapèze (fig. 28, b). Pour trouver la pro- 


babilité P ((X, D.) € D, (8)), utilisons le fait qu’en cas de distribu- 
tion normale de la variable aléatoire observée X, les statistiques X 


b) 


et S sont indépendantes (exemple 5.13). Comme X suit une distribu- 
tion normale N (m., D./n) et Z = S/D, — kD,/D,une distribution 
du %° à Æ — n — 1 degrés de liberté (exemple 5.34), nous avons 


P((X, D,)€ Da (8))= P (IX —m;] < 


<eV À) P (gr <2< 745 )=20 (ea) La (Ba). 


Après avoir déterminé e, et Ô, à partir des équations ® (e,) = 
= cV a«l2, Le (0) — [2 œlc, où c est un nombre choisi arbitraire- 
ment, nous trouvons, à l'appui de la formule (28), le domaine de 
confiance du paramètre vectoriel (mx D «), Correspondant au niveau 
de confiance &, et nous pouvons être sûr qu'en moyenne dans 100 &«% 
des cas le point (m,, V D.) sera inclus dans le domaine ainsi trou- 
vé A (8) < 
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Exemple 6. Les données expérimentales recueillies sur la variable 
aléatoire X au cours de 20 épreuves constituent l'échantillon suivant : 8, 42, 22, 
—40, 18, 38, 2, —16, 34, 6, 54, 20, 74, 0, 4, —28, 36, 44, 16, 24. Trouver les 
estimations et les intervalles de confiance pour m, et D, pour un niveau de 
confiance & = 0,95. 

Nous trouvons, à l'aide des formules (12) et (17), les estimations de m., D, 
et 0, — V D, : 


= È A 7 == é 2 À ———— 
RER VAE de RER 756,8, 6,+ VB 27,5. 


A partir des valeurs données k — n — 1 — 19 et « = 0,95 nous trouvons, 
dans les tables 3 et 4, les valeurs e, — 2,09 pour m, et e, — 0,380 pour D... 
Les formules (24) et (26) donnent alors 
les intervalles de confiance pour m, 
et D. : 


5,4<mzx<30,4, 17,0< V D, < 38,0. 


Pour déterminer le domaine de 
confiance pour le paramètre vectoriel 
(mx, D.) nous trouvons, à l’aide de la 
table de la fonction de Laplace 1 et de la 
table 4, les valeurs e, — 2,23, ô, — 0,464 
à partir des conditions 2 (e,) — 
= Va = 0,974, Le (6, )=V «= 0,974. 
Nous trouvons alors, à l’aide de la for- 
mule (28), le domaine de confiance 


17,9— 0,499 VD, < mx <17,9+ 
40,499 VD, 14,7 € V Dx < 40,3. 


On a représenté ce trapèze sur la fige. 29. 
Pour comparer, on a montré le rectangle 
obtenu auparavant par construction à partir des intervalles de confiance séparés 
pour m, et D, (c'est le domaine hachuré de la fig. 29). 

Pour comparer, trouvons le domaine de confiance rectangulaire avec un 
niveau de confiance non inférieur à & — 0,95. Conformément au point 2.4, il 
suffit pour cela de trouver, à partir des formules (24) et (26), les intervalles de 
confiance pour m, et D, correspondant au niveau de confiance «; — 
= 1 — (1 — &)/2 = 1 — 0,05/2 — 0,975. Nous obtenons ainsi 


Al<mr<3,7, 145< V Dr <40,5. 


Ce domaine de confiance rectangulaire est montré sur la fig. 29 en pointillé. 


Fig. 29 


4.6. Estimations des moments. Les résultats obtenus pour les 
espérances mathématiques montrent que la moyenne arithméti- 
que des puissances correspondantes de la variable aléatoire est une 
estimation consistante, sans biais, du moment d’un ordre quelcon- 
que *). Toutefois, la définition exacte des intervalles de confiance 


*) Pour calculer les estimations des espérances mathématiques, des vari- 
ances, des écarts-types des troisièmes et des quatrièmes moments centrés, des 
coefficients d'asymétrie et d'aplatissement ainsi que des coefficients de corré- 
lation (point 5.2) sur ordinateur, on peut utiliser le programme MISR de [94]. 
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Ce) 


pour les moments s'avère un problème ditficile. La détermination 
approchée des intervalles de confiance pour un nombre élevé d'é- 
preuves est habituellement réalisée en utilisant la normalité asympto- 
tique des estimations des moments. Conformément au théorème li- 
mite central ($ 5.4), la distribution des estimations des moments 
d’un ordre quelconque en tant que somme de variables aléatoires 
indépendantes diffère, pour un nombre suffisamment élevé d’épreu- 
ves, aussi peu que l'on veut de la distribution normale. C'est pour- 
quoi, connaissant l'espérance mathématique et la variance de l’esti- 
mation d’un moment, on peut déterminer de façon approchée les 
intervalles de confiance. L'espérance mathématique de l'estimation 
d’un moment est égale à ce moment en vertu du caractère non biaisé 
de l'estimation. Il n’est pas difficile de trouver la variance de l’esti- 
mation, bien que cela soit lié à des calculs laborieux. 


$ 5. Estimations de l’espérance mathématique 
et de la matrice de variances-covariances 
d’un vecteur aléatoire 


5.1. Estimations de la covariance et du coefficient de corrélation. 
Les résultats du $ 4 permettent de trouver les estimations et les 
intervalles de confiance pour les espérances mathématiques et les 
variances des coordonnées d'un vecteur aléatoire, considérés séparé- 
ment. Pour apprendre à estimer la matrice de variances-covariances 
d’un vecteur aléatoire, il reste à considérer les estimations des 
covariances. 

En vertu des raisonnements exposés au point 1.2.9, une estima- 
tion naturelle de la covariance des variables aléatoires X et Y est la 
covariance empirique 


, + S (X, — X) (Ye —Ÿ), (29) 


= 1 


où À 1 » Yi ss Âns Yn sont les résultats aléatoires des épreuves, 
et X, YŸ les moyennes empiriques des variables X et Y. Exactement 
de la même façon que pour l'estimation D* de la variance D, nous 
trouvons MK%, = (n — 1)k,,/n. Il en découle que Æ°%, est une 
estimation biaisée avec un biais égal à —#,,/n. Pour obtenir l’esti- 
mation sans biais K=, il suffit de multiplier X°%, par n/(n — 1). Nous 
obtenons ainsi 


Ray D Qu D Fa V). (80) 


h=1 
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La variance de cette estimation s'exprime en fonction des moments 
centrés Up4 du vecteur aléatoire {X, Ÿ}: 


D __ R(Uss—U) __ 2U2a —Hoolos — AUS 
Du Gp (n—1)° SR 


Hoo — Hooltue — 2Hf: 
mn + PD 


Cette formule peut être établie exactement de la même façon que (18). 
Dans le cas particulier d’une distribution conjointe normale des 
variables X et Y’, le quatrième moment u., s'exprime en fonction des 
éléments de la matrice de variances-covariances loo = UogUos + 
+ 2u?, = D,N, + 2k£, (point 4.5.3) et (31) sous la forme 


; D, D, + k2 
DK xy = Day Fay . (32) 


n—1 


En vertu des formules (17) et (30), l'estimation du coefficient de 
corrélation r,, des variables X et Ÿ est déterminée par la formule 


ñn 
k 2: 2 (Xr—X) Yn—3)] 
a x = : 
RE, = = 7 TR à ne ne (33) 
Day Ni (Xx—XR NS Ca-Ty 
Rk=1 k=1 


5.2. Estimations de l’espérance mathématique et de la matrice 
de variances-covariances. Les résultats obtenus nous donnent les 
estimations de l'espérance mathématique et de la matrice de va- 
riances-covariances de tout vecteur aléatoire. 

» Soient X un vecteur aléatoire à m dimensions, X1, ..., Âh 
ses valeurs expérimentales, X3,,.. ., Xim les coordonnées du vecteur 


Ar (=1,...,n), X la moyenne d'échantillonnage du vecteur X : 


n 
- À 
À =— ÿ Xe (34) 
Run 
Introduisons une matrice ÜU dont les lignes sont les vecteurs 
PE, 


À Re 
U—=| : Le RE (35) 
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Nous aurons alors, en vertu de l'égalité 


2 Arr Xp) (Ann X9 = À XupXr—nX »Xq = 


= À Xp — M) (Xng— Mg) —n(Xp—Mp) (Xa— Ma), (86) 


que l’on établit exactement de la même façon que l'égalité analogue 
du point 4.2, une estimation de la matrice de variances-covariances 
K, par la formule 
e S UTU—nXXT >: 
en 1 + (37) 
Ainsi, la moyenne d’échantillonnage X peut servir d'estimation de 
l'espérance mathématique m, du vecteur aléatoire X. et la formu- 
le (37) définit une estimation sans biais de sa matrice de variances- 
covariances K.,. < 
5.3. Domaines de confiance pour l'espérance mathématique. Il 
nous reste à apprendre à définir les intervalles de confiance pour 
l'espérance mathématique et la matrice de variances-covariances 
d'un vecteur aléatoire. 
> Trouvons tout d’abord le domaine de confiance pour le vec- 
teur m.. Nous appliquerons pour cela la troisième méthode du 
point 2.4. Conformément aux résultats des exemples 5.15 et 5.25, la 
statistique 


p= EEE) (KT m2) S1(K—m.) 


suit une distribution F 


Îm, n-m (f) = 


m 

1 
m n—m f° (1 É — f) ; 
(sr) 
Cette densité de probabilité ne dépend pas des paramètres inconnus 
m; et K.. C'est pourquoi la fonction 


p(X, S, m)= FO (XT m7) S1(X —m,) 


vérifie toutes les contraintes du point 2.4, et le domaine de confiance 
pour m. est déterminé par l'inégalité 


(XT— mx) S1(X —m,) < (38) 


m 
n(n—m) fa 
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où f. est le quantile d'odre 100 (1 — a) de la distribution F (fn n-m) 
défini par l'équation 
fa 
P(F< fa) = Fmin-m (fa) = | fm.n-m(f) df=c. (39) 


0 


Pour déterminer f, à partir des valeurs &, ! = m et À = n — m, 
on a élaboré des tables [117] (table 6). 
L'équation 
CAEN) SALE) = fa 


en coordonnées Ë définit un ellipsoïde à m-dimensions (une ellipse 


quand m — 2) de centre au point aléatoire X, dont les dimensions 
aléatoires et les directions des axes principaux sont déterminées par 
la matrice S et le nombre f,. Le domaine de confiance (38) représente 
l'ensemble des points internes de cet ellipsoïde aléatoire. Il découle de 
(39) que cet elliposoïde recouvre le point inconnu m., avec une pro- 
babilité &«. <Ô 

5.4. Distribution du coefficient de corrélation empirique. Passons 
maintenant à la définition des intervalles de confiance pour les coeffi- 
cients de corrélation. Il découle des résultats de l'exemple 5.18 que, 
dans le cas d'une distribution normale du vecteur X, la matrice 
aléatoire S suit une distribution de Wishart définie par la densité 
de probabilité 
n-m—2 

2 


c 
Dm (S) = — Ts 


(2mIKz:l) * 


exp {+ tr (Kz's)} 


dans le domaine des matrices définies positives s et w,m (s) = 0 
en dehors de ce domaine. Pour déterminer l'intervalle de confiance 
pour le coefficient de corrélation, il suffit de considérer le cas d'un 
vecteur bidimensionnel X, m — 2. Dans ce cas, la densité de pro- 
babilité conjointe des éléments S,,, S,+, S2 de la matrice S est 
déterminée par la formule 


Uno (S11 S12r 522) — 
Sao— $?2) ” 1 
= Guise a exp 5 (Æ22S11 — 2K 28e + k41500) } , (40) 
4 (n—3)lA * 


CS 


où, pour des raisons de concision, nous avons posé À = Æ;jko — 
—k},. Le domaine des matrices symétriques définies positives dans 
l'espace à trois dimensions décrit par le système de coordonnées rec- 
tangulaires (s,,, S1, S:2) Correspond au domaine, limité par la moitié 
du cône, défini par les inégalités s,,, 522 > 0, 2 51152. En dehors 
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de ce cône, nous avons 
Wna (Sas Si S22) = 0. 


> Pour trouver la distribution de l'estimation (33) du coefficient 
de corrélation, remarquons que A2 = S32/V S11 Sos, de sorte que 


la densité de probabilité f, (p) de l’estimation Ra peut être détermi- 
née par la formule (5.32): 


În (p) 7 


RE 


O0 
| Wne (S14» 0 V S11922) Sa2) dS11 AS. 
0 


En portant ici l’expressiun (40) et en introduisant de nouvelles 
variables d'intégration x = s,,/4,,, y = Soa/K99, nous obtenons, après 
des transformations simples 
Le 
4—p°) * 
fn (P) = — x 
An (n—3)! (1—r?) À 


dc ER , T + y— 2rp V'zy 
X \ | ( (zy 7 expl— =) dx dy. 
0 0 
Le changement de variables y — x tg° ® donne 
n— 4 
1—p°?) ? 
În (P) = — 2 — X 
2n(n—3)!(41—7r?) À? 


Fe ter 1— rp sin 29 
S gr? er dx. 
X do É exp { — D — z} 


COS* 2(1—r°) cos* y 


En adoptant en qualité de nouvelle variable d'intégration t dans 
l'intégrale interne le module de l’argument de la fonction exponen- 
tielle au lieu de x, nous trouvons 


dns In 2 
| 2-2 exp { — ER z} dx = 
0 


2(1—7r°) cos* p 


Où 
__2n-1 (4—r2)n-1 cos?-2p \ no jt ft — 
= Greg | et dt- 
__2n-1 ({—r2)n-1 cos22-2 
({—rp sin 2q)7-1 Mr 


$ 5] ESTIMATIONS DE L'ESPERANCE MATHEMATIQUE ET DE LA MATRICE 241 


En portant cette expression dans la formule précédente, nous obte- 
nons 


fn (p) 7 


/2 
2 ___sinn#2@dq _ 
(0 DT | (—rpsin 2} 
| n—4 T 
__ n—2 NF NT + | sin-3 6 dO 
on () U (1—rp sin 6)n-1 


Enfin, en prenant en considération le fait que sin 6 —=sin (x — 8), 
nous notons la formule obtenue sous la forme 


n-4 1/2 Lun 
AOC ENT EE le € (1) 
0 


Cette formule, déterminant la densité de probabilité du coefficient 
de corrélation, a été obtenue par Fisher [110]. Le calcul de l’inté- 
grale dans (41) est élémentaire (par exemple, à l’aide du changement 
de variables uw — tg (6/2). Toutefois, cela donne une expression 
trop compliquée. Pour obtenir une formule compacte, introduisons, 
d’après Fisher, une formule récurrente pour les intégrales 

x/2 


/ 
‘sint-2 6 dO 
h@= | Us: smômr 


> En dérivant cette formule par rapport à z, nous obtenons 


IA (2)=(R— 1) Î sen qge = (8 — 1) nas (6) 


(1—2sin 0)? 


Il en découle que Z, (z) = 1n-, (z}/(n — 2). C'est précisément la 
formule récurrente recherchée. Nous trouvons alors, en l’appliquant 
Th (2) = 19 (z)/(n — 2)1. 

Ainsi, le problème se ramène au calcul de l'intégrale 


1—:sin 0° 


l:(:)= | _ 


Le changement de variables u — tg (0/2) et respectivement sin 60 — 
— Qu/ (1 + u*), d8 = 2du/(1 + u*) nous donne, après quelques trans- 
formations trigonométriques élémentaires, l'expression 


71/2 40 
arccos { — 2 
ame 1—:sin0 pis ‘ 


16—0244 
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Ainsi, nous avons 
_. 1 dn-?  arccos (—:) 
BOSS ES 


En portant cette expression dans (41), nous obtenons la formule de 
Fisher 
1 Sd. n=4 
Pipe) Ep) x 
dn-? arccos (— rp) ‘ 
dE Virpt à 2? 


Il est clair que toutes les formules obtenues pour f, (p) ne définis- 
sent 7, (p) que dans l'intervalle [—1, 1]. En dehors de cet inter- 
valle nous avons f, [uw] = 0. 

9.5. Intervalles de confiance pour le coefficient de corrélation. 
Pour déterminer l'intervalle de confiance du coefficient de corréla- 
tion r, on utilise habituellement 
la seconde méthode du point 2.4, 
exactement de la même façon que 
nous l'avons fait pour la probabilité 
inconnue (point 3.2). 

Après avoir déterminé pour 
chaque valeur de r € (—1, 1) l'inter- 
valle D, (r) = (a, (r), ba (r)) à 
partir de la condition 


P(R<a,(r))= 
=P(R>b(r)= 2, (43) 


2 


X 


Fig. 30 nous construisons sur le plan(r, r} 
les courbes r—a,(r) et r— 


— b, (r) (fig. 30). Ces courbes, pour toute valeur r de l'estimation À 
du coefficient de corrélation, déterminent la réalisation correspon- 


dante A, (r) = {r:a, (7) < r <by (r)} de l'intervalle de confiance 
A4(R) pour r correspondant au niveau de confiance « (fig. 30). 


On peut pratiquement construire les courbes r — a, (r) et r = b, (r) 
en utilisant les tables de la fonction de répartition de la variable R 


Cod 


r 


Fat) = | fa (p) dp, 


24 


qui ont été élaborées par David [26, 27]. 
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On peut utiliser pour une détermination approchée de l'intervalle 
de confiance de r le fait remarqué par Fisher que la distribution de la 
variable aléatoire 


+ In (44) 
4— R 


Z = 


est proche, même pour de petites valeurs de », de la distribution 
normale 


N (rit 5). 


F. David a étudié la précision de l’approximation de la distribu- 
tion de la variable Z à une distribution normale et recommandé d’u- 
tiliser la distribution normale approchée pour Z quand nr => 25 en 
rejetant le terme r/2 (n—1) dans l'expression de l'espérance mathé- 
matique de la variable Z. Ainsi, après avoir déterminé e, de la con- 
dition P(|Z—m,l|<e./Vn —3) — 20 (e,)—=a, nous obte- 
nons un intervalle de confiance approché pour le coefficient de corré- 
lation r sous la forme 


14+R _ € 
14+R  Vnr—3 


1 1 tr _1, 1+R Ex 
7 In <> In 1— Sade r 


d Vr=3 
Il en découle, vu que la fonction 
+ zx 


— +? 


y=s nm 


est monotone croissante et que la fonction inverse est définie par 
la formule 
eu —1 


2 mi th, 


une nouvelle expression pour l'intervalle de confiance de r sous la 
forme 


Au HR a 1, 1+À Ex 
th(5in ci 7 )<r< th (5 + 7 ): 
(45) 


5.6. Domaines de confiance pour la matrice de variances-cova- 
riances. Pour déterminer les domaines de confiance pour la matrice 
de variances-covariances dans l’espace à m (m + 1)/2 dimensions,on 
peut appliquer la seconde méthode du point 2.4. 

En utilisant la distribution de Wishart (5.21), choisissons pour 
chaque matrice donnée K, le domaine D, (K,) tel que l'estimation 


16% 
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EEE mm) 
K, — S/(n — 1) lui appartienne avec une probabilité «: 


P(REDa(K)= | Wam(s)ds= a. 
DK) 
Dans ce cas, l'ensemble des matrices À, pour lesquelles la valeur 


donnée K, appartient à D, (K,), Ac (K,) = {K,:K, € D, (K,)}, 
sera le domaine de confiance pour ÆX, correspondant au coefficient 
de confiance &. On peut définir le domaine D, (Æ,) sous forme d'un 
rectangle (d’un parallélépipède) dans l’espace à m (m “+ 1)/2 dimen- 


sions. Les côtés de ce rectangle suivant les axes X,, peuvent être 
définis par leurs inégalités identiques à celles obtenues pour la va- 
riance du point 4.4. | 

> Pour trouver le domaine de confiance conjoint pour le vec- 
teur m, et la matrice K, (dans l’espace à m(m + 3)/2 dimensions), 
utilisons le fait que si le vecteur observé X suit une distribution 


normale le vecteur X et la matrice S sont indépendants et en outre X 
suit la distribution normale W (m,, K,/n) et S la distribution de 
Wishart w,m (s). Nous rechercherons le domaine D,, (m,, K.) sous la 
forme 


{X, AK): n(XT— me) Kz'(X —m) < En, 
da (Ka) <Ëx € ba (Kx)} *). 
Nous aurons alors 
P((X, À2) € Dame Ka))= P(n(XT—me) Kz'(X —m) < 
<es) P((n—1)as(K;) <S <(n—1) ba (Æ)). 
Après avoir déterminé e,, 4. (K.) et b. (K,) des équations 
P(n(X"—ms) Ki (X—m;) <ea) =cVa, 
P ((n—1) aa (Ki) <S <{n—1) ba (Ka) = LE, 
nous obtenons le domaine de confiance pour (m.,, K.) sous la forme 
Aa (X, Ka) ={(me, Ks): n(mT—X7) Kzt(m,—X)<es, 
Ga (Kx) K€ ba (Kx)}. 


*) Les inégalités entre les matrices, de même que les inégalités entre les 
vecteurs, sont comprises comme les inégalités correspondantes entre tous les 
éléments de la matrice. 
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Exemple 7. Après la réalisation de 20 épreuves, nous avons obtenu 
l'échantillon suivant pour le vecteur aléatoire bidimensionnel {X, Y}: 
(8, 10), (—9, —17), (—2, —3), (2, —1), (—3, —21), 
(9, —2), (15, 10), (—10, 0), (—2, —10), (1, 18), 
(11, —13), (—24, —12), (—8, —2), (27, 18), (6, 9), 
(—8, —9), (—6, 10), (0, —6), (17, 4), (—18, —20). 

Trouver les estimations des espérances mathématiques, des variances, de la 
covariance et du coefficient de corrélation des variables X, Y, le domaine de 
confiance pour le vecteur de l’espérance mathématique, les intervalles de con- 
fiance pour les variances et le coefficient de corrélation et les intervalles de con- 
fiance conjoints pour tous les cinq paramètres m,, m,, D, vus) joue a = 0,95. 

et (3 


Nous trouvons, à partir des formules (12), (17), (30) es estimations 
de mys Mys Drs Dis key Et Fey: 


z=—1,05, Yym—2,05, d,=s11/19& 194, 


dy = 52219 & 136, Rxy=sis/19 111, 


où S11 — 3681, S19 — 2111, Sos — 2583. 

Nous trouvons, à partir de la table 6, pour &« = 0,95, 1= m = 2, k — 
= n— m — 18 la valeur f, — 3,55. La formule (38) détermine alors la réalisa- 
tion du domaine de confiance pour le vecteur [m. m)T comme l’ensemble des 
points intérieurs de l'ellipse 


0,513 (mx + 1,05)° — 0,8358 (ms + 1,05) (m, + 2,05) + 
+ 0,7287 (m, + 2,05) = 19,72. 


Cette ellipse est représentée sur la fig. 31 avec tous les points expérimentaux. 

Après avoir déterminé, à partir de la table 4, la valeur e, = 0,380 pour les 
valeurs données de & = 0,95, k — n — 1 — 19, nous trouvons, à partir de la 
formule (26), les intervalles de confiance pour les variances des coordonnées du 
vecteur aléatoire : 


8,6< V D; <19,2, 7,2< V Dy< 16,1. 
Enfin, après avoir déterminé, à l'aide de la table 1, la valeur e, = 1,96 


pour laquelle 20 (e,) — & = 0,95, nous trouvons, à l’aide de la formule appro- 
chée (45), l'intervalle de confiance pour le coefficient de corrélation : 


1 1,68 1,96 1 1,68 , 1,96 
th (in 0,3 1 | <r<th (rrost | , 


ou, après avoir cffectué les calculs, 
0,338 << r << 0,862. 


On peut déterminer les intervalles de confiance conjoints pour m,, m,, 
D,, D, et r correspondant à &« = 0,95, conformément à la fin du point 2.4, comme 
leS intervalles de confiance pour chacun de ces paramètres, Correspondant au 
coefficient de confiance @; = 4 — (1 — a@)/5 — 0,99. Nous obtenons en 
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définitive 
— 20,96 << mx << 18,86;  —18,72 < my < 14,62; 
5,8< V D; <220;, 49<V Dy<185:; 0,200< r < 0,895. 


Trouvons encore les intervalles de confiance conjoints pour les variables 
mx ©t m,. Pour cela, il convient de déterminer les intervalles de confiance pour 


Fig. 31 


chacune des variables m,, m, correspondant au niveau de confiance &, = 
= 1 — (1 — a)/2 = 0,975. Nous obtenons en définitive 


—8,80 < my < 6,703  —8,47 < m, << 4,37. 


Pour pouvoir comparer, on a représenté sur la fig. 31 le rectangle formé par les 
intervalles de confiance conjoints pour m, et m,. 


$ 6. Vérification d’hypothèses relatives aux paramètres 
des distributions 


6.1. Problèmes de la vérification des hypothèses. Le problème 
de la construction des domaines de confiance pour les paramètres des 
distributions s’apparente au problème de la vérification des hypothè- 
ses relatives à ces paramètres. Il est clair de ce que nous avons dit au 
point 1.1 qu'aucune affirmation exacte au sujet des paramètres de la 
distribution ne peut être avancée à partir des résultats des épreuves. 
On ne peut que formuler certaines suppositions les concernant, des 
hypothèses. Le problème de la vérification des hypothèses consiste 
à établir si l'hypothèse adoptée contredit ou non les données expé- 
rimentales. 
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Deux types principaux d’hypothèses relatives aux paramètres 
inconnus des distributions sont possibles. L'hypothèse du premier 
‘type représente une supposition relative au fait que la valeur incon- 
nue du paramètre 0 (scalaire ou vectoriel) admet une valeur donnée, 
disons 6,, ou bien appartient à un ensemble donné de valeurs. 
L'hypothèse du second type correspond au fait que les paramètres 
inconnus dans deux échantillons indépendants (ou dans un nombre 
plus élevé d'échantillons) possèdent une même valeur. Il est clair 
que l'hypothèse du second type représente en fait une hypothèse rela- 
tive à deux séries d'épreuves dans lesquelles les échantillons ont été 
prélevés dans les mêmes conditions, car ce n'est que si se trouve 
réalisé un certain ensemble de conditions au cours de chacune des 
épreuves que les probabilités des événements et les caractéristiques 
des variables aléatoires auront les mêmes valeurs pour toutes les 
épreuves. Une cause caractéristique de la modification des conditions 
de l'épreuve est due souvent à une certaine forme de tendance (trend), 
une modification lente et incontrôlable de l'épreuve. Dans ce cas, la 
modification d’une variable est considérée lente si, au cours d’une 
série quelconque d'épreuves, on peut la considérer pratiquement 
constante et ce n'est qu’au cours de l'intervalle de temps séparant 
deux séries d'épreuves que sa variation peut être notable. Le problè- 
me de la vérification d'une hypothèse du second type représente, en 
pareil cas, un problème de détection d'une tendance importante au 
cours du temps écoulé entre deux séries d'épreuves. 

Les algorithmes permettant de mettre en correspondance les don- 
nées expérimentales et la décision correspondante d'accepter ou de 
rejeter une hypothèse sont appelés règles décisionnelles. 

6.2. Vérification d’hypothèses relatives à la valeur d’un paramètre. 
Le problème de la vérification d’une hypothèse du premier type peut 
être aisément résolu à l’aide des domaines de confiance. Si une valeur 
donnée 6, (un ensemble donné de valeurs) appartient à la réalisation 
obtenue du domaine de confiance (possède une intersection non vide 
avec lui), on peut considérer que l'hypothèse ne contredit pas les 
données expérimentales. Dans le cas contraire, l'hypothèse est 
rejetée. Pour cette règle décisionnelle, la probabilité de rejeter 
l'hypothèse quand elle est vraie est égale à 1 — «. 


Exemple 8. Dans les conditions de l'exemple 5, l'hypothèse relative 
au fait que la probabilité de l'événement À est égale à 0,5 peut être rejetée car 
le point p = 0,5 n'appartient pas à l'intervalle de confiance (0,583, 0,763) 
correspondant à & — 0,95. La probabilité de rejeter une hypothèse vraie est 
dans ce cas égale à 0,05. 

Exemple 9. Dans les conditions de l'exemple 7, l'hypothèse de non- 
corrélation des variables aléatoires doit être rejetée et dates èse relative au 
fait que le coefficient de corrélation appartienne à l'intervalle (0; 0,5) peut être 
adoptée car le point r = 0 n'appartient pas au domaine de confiance (0,338; 
ee et l'intervalle (0; 0,5) possède une intersection avec cet intervalle de 
confiance. ; 
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Nous donnerons une autre approche du problème de vérification 
des hypothèses du premier type au point 10.4.6. 

6.3. Vérification d’hypothèses relatives à la coïncidence des 
valeurs du paramètre. Pour résoudre le problème de vérification des 
hypothèses du second type, on applique souvent une modification 
de la troisième méthode du point 2.4. La modification réside simple- 
ment dans le fait qu'au lieu d'inclure la valeur du paramètre incon- 
nu 6 dans le nombre des arguments de la fonction @, on utilise son 
estimation à partir du second échantillon. 


Soient 6, et 6. deux estimations du paramètre 6 obtenues de 
deux échantillons indépendants. Supposons que nous sachions trou- 


ver une fonction scalaire œ (6, 8», S) des estimations 6, Ô, et 
d’une certaine statistique S possédant les propriétés suivantes : 


1) pour toute valeur fixée de ô, et s des variables 6, et S, l’iné- 
galité œ (Bi ô., s) < c détermine, quand c croît, une famille de do- 
maines emboîtés monotones croissants D (8, S, C) = (6. :p (6, 
6, s) < c}; 

2) p (6, 6, s) = O0 pour tous 6, s et œ (84, ô,, s>0 pour tous 
B,, 6, S, , > 0, (et par conséquent le point 6, — 6, appartient 
au domaine D (6,, S, c) pour tous c > 0, 6, et s); 


3) la distribution de la variable aléatoire T = œ (6,, O:, S) 
dans le cas où l'hypothèse est vraie ne dépend pas du paramètre 
inconnu 6. 

Dans ce cas, en déterminant 6, à partir de l'équation 


P (p (O4, >, S) < da) =; 
nous obtenons la règle décisionnelle suivante correspondant au niveau 
de confiance « : si o (O,, 6:, S) << 6,, alors l’hypothèse ne contredit 


pas les données expérimentales ; si, par contre, p (6., 8:, S)> ô,, 
cette hypothèse est rejetée. Dans ce cas, la probabilité de rejeter 
l'hypothèse quand elle est vraie est égale à 1 — a. 

Appliquons la méthode générale exposée à la vérification de l'hy- 
pothèse relative au fait que l'espérance mathématique de la variable 
aléatoire prend la même valeur (inconnue) au cours de deux séries 
d'épreuves indépendantes. Considérons deux séries d'observations 
indépendantes de la variable aléatoire X normalement distribuée 
(ou de deux variables aléatoires X, et X2) d'espérance mathématique 
inconnue m, de matrice de variances-covariances K.. L'hypothèse 
devant être vérifiée consiste à estimer que m, est la même dans les 
deux séries d'épreuves. La matrice X, est alors considérée identique 
dans les deux séries d'épreuves. Soient », et nr, les nombres d'épreuves 
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dans la première et la seconde série, X,, et X. les moyennes empiri- 
ques dans les deux séries d'épreuves, U, et U, les matrices dont les 
colonnes sont les valeurs empiriques du vecteur aléatoire observé X 
au cours des deux séries d'épreuves, 


Sx=UVRUi—nXiXr = URUR —n XXE (k—1, 2), 
H = S; + Sa 


m est la dimension du vecteur observé X. 
Conformément aux résultats des exemples 5.17 et 5.25, la varia- 
ble aléatoire 


(nitno—m—1) ,& v 4/Y V 
pe (KT — ATH (A1 — À2) 
suit une distribution F, Îm, n+ne-m-1 (). Comme cette distributiom 
ne dépend pas des valeurs inconnues m, et K,, la fonction 


7 Y _ hane(rtnnm—i) pr _ ST) y11Y _Y 
PO Lo = AT — À) HA (Xi — À) 
vérifie toutes les conditions nécessaires. C’est pourquoi on peut adop- 
ter la règle décisionnelle suivante pour la vérification de l'hypothèse 
relative à l'égalité des espérances mathématiques dans les deux séries 
d'épreuves: si 
VT_YTHA1Y _Y m(n1tn2) LE 
(Xi —X,) HA (Xs— X2) < fo nn D (46) 

où à est le quantile supérieur d'ordre (1 — «) de la distribution F, 
1h m, 1 +Rs=m 1) alors l'hypothèse est adoptée. Dans le cas contraire, 
elle est rejetée. Dans le premier cas, on dit que l'écart entre les deux 
valeurs moyennes n'est pas significatif et peut être dû uniquement. 
au caractère aléatoire des résultats des épreuves. Dans le second 
cas, on dit que cette différence est significative et qu'il est peu proba- 
ble qu'elle soit due uniquement au caractère aléatoire des résultats 
des épreuves. Une différence significative indique la possibilité 
d'une différence des espérances mathématiques dans les deux échan- 
tillons (du fait de différences incontrôlées dans les conditions des 
épreuves). La valeur f, est pratiquement déterminée à l’aide de la 
table 6 à partir des valeurs données de «a, 1 = m, et k=n, + 
+ Na —m—A 

Dans le cas particulier d'une variable scalaire observée X (m = 1), 
on peut transformer la règle décisionnelle obtenue de manière à uti- 
liser, au lieu d’une distribution F, une distribution 7. A l’appui des 
résultats de l'exemple 5.14, la variable aléatoire 


Rift (R1-+ 12 — 2) 
VA ou na Gi Xe 
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suit une distribution T, Sa,+n,-° (t). Comme cette distribution ne 
dépend pas de m,, ni de D, = K,, alors on peut choisir en qualité 


de fonction (Xa X:, H) la statistique 7. Nous obtenons alors la 
règle décisionnelle suivante : si 


Y _Vv (ni+n2) H A 

[A4 — X2l< to Ver, (41) 
où {, est déterminé à partir de l'équation P (IT | <t,) = «, 
alors l'hypothèse est acceptée ; dans le cas contraire, elle est rejetée; 
la différence entre les deux valeurs moyennes est jugée significative. 
On détermine pratiquement t, à l’aide de la table 3 à partir des va- 
leurs données de «x et À = n, + n; — 2 *). Il est clair que pour m =1 
(46) coïncide avec (47) (exemple 5.15). 

Pour confirmer la décision relative au fait que la différence entre 
les deux valeurs moyennes n’est pas significative, on peut calculer 
la probabilité d'obtenir une différence supérieure à celle observée. 
Dans le cas d’une variable aléatoire scalaire X, cette probabilité 
P(IT|H|tl},oùtest la réalisation de la variable 7 obténue par 
suite des épreuves, peut être trouvée dans la table 3. Conformément 
au résultat de l'exemple 5.26, la valeur de cette probabilité P (F > f) 
est égale, dans le cas général, à la valeur de la fonction de répartition 
de la distribution fB de paramètres p — (n, + no — m —1)/2, 
q = m/2, au point & — [1 + mf/(n, + na — m —1)l"1, où f est 
la réalisation de la variable F obtenue par suite des épreuves **). 


Exemple 10. Dans les conditions de l'exemple 6, on a obtenu, à partir 
d'un second échantillon comportant trente épreuves, une valeur moyenne de 
23,5 et se —= 354. Vérifier l'hypothèse d'égalité des espérances mathématiques 
dans les deux séries d'épreuves en adoptant «& —= 0,95. 


Nous avons dans ce cas nr, = 20, nr = 30 m= 1, z, —=.17,9, La = 23,5 
S, = 14 380, s2 — 23 354, h — 51 + 52 — 37 734, t, — 2,013 et. 


50-37 734 
20-30-48 


C'est pourquoi l'hypothèse relative à la coïncidence des espérances mathéma- 
tiques peut être adoptée. Pour confirmer cette décision, trouvons la valeur t 
de la variable 7 obtenue à la suite des épreuves: 


un 20-30-48 
] 90-37 734 


| tire 1=| 17,9—23,5 | =5,6 << 2,013 


(17,9— 23,5) & — 0,692. 


Nous trouvons alors, dans la table 3, pour 4 — 48 P ( T | > 0,692) & 0,493. 
Ainsi, on peut obtenir, avec une probabilité 0,5, une différence encore plus grande 
entre les valeurs moyennes que celles observées. 


*) Pour calculer la grandeur 7 afin de vérifier l'hypothèse relative à 
l'égalité de m, à un nombre donné ou à l'égalité de deux espérances mathémati- 
ques, on peut utiliser le programme TTEST [94]. 

**) La fonction de répartition de la distribution f peut être calculée sur 
ordinateur à l’aide du programme BDTR [94]. 
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6.4. Elimination des observations anomales. La méthode exposée 
de vérification de l'hypothèse relative à la coïncidence des espéran- 
ces mathématiques dans deux échantillons peut être appliquée en 
particulier à la vérification de l'hypothèse relative au caractère 
anomal d’une observation constituant un point isolé éloigné du 
groupe des autres points expérimentaux. Un tel écart du point expéri- 
meptal du groupe des autres points conduit naturellement à penser 
que cet écart a eu lieu du fait d'une violation incontrôlable des 
conditions de l'épreuve et, par conséquent, le point isolé doit être 
rejeté et considéré comme anomal. Il est clair que pour adopter une 
telle solution il faut avoir de bons arguments. Aïnsi se manifeste le 
problème de la vérification de l'hypothèse relative à l’anomalicité 
d'une observation. 

Supposons qu'après 2+1 épreuves une valeur de la variable 
aléatoire se trouve à une distance notable du groupe des nr autres 
valeurs. Sans restreindre la généralité, on peut considérer que cet 
écart a eu lieu au cours de la (n + 1)-ième épreuve. Pour vérifier 
l'hypothèse relative à l’anomalicité de la valeur x, …,, il suffit de la 
considérer comme un second échantillon constitué par un seul point 
expérimental x,+,. On peut alors appliquer la méthode exposée. 
Dans ce cas mn = n, no = 1, Xo — Xn41 S9 = 0 et (46) définit 
la règle décisionnelle suivante : la valeur X, :, de la variable obser- 
vée X est considérée anomale et rejetée si 

TA cr min 

ATX ne) 5 (Li Xn40) > fe re 
où /. désigne le quantile supérieur d'ordre (1—a«) de la distribu- 
tion F, fm, n-m (); dans le cas contraire, elle n'est pas rejetée. 

Dans le cas d’une variable scalaire X, la formule (47) donne exac- 
tement de la même façon la règle suivante : la valeur X, +. est con- 
sidérée anomale et rejetée si 

[Xi XntilZte ARE 
où t, est défini à partir de la table 3 en entrant les valeurs données 
de œ et À — n — 1; dans le cas contraire, X, +, est pris en compte et 
n'est pas rejeté. 

Exemple 411. Après avoir effectué 21 épreuves, on a obtenu les 20 
pointe expérimentaux de l'exemple 7 et aussi un point (50, 40) éloigné du groupe 

es autres points. Vérifier l'hypothèse relative au caractère anomal de ce point. 

Nous trouvons, d’après la table 6, pour & = 0,95, 1 = m = 2, k — 
= n— m = 18 la valeur f, — 3,55. Etant donné que 
(aT— rl) st (x, — 7e) =[0,5113 (50 + 1,05)2—0,8358 (50+ 1,05) (40 +2,05) + 

-0,7287 (40 2,05)21-40-3 2 0,827 > 3,55-2721 © 0,414, 


alors le voint z:, = [50, 40]T peut être considéré anomal et rejeté. 


CHAPITRE 7 


THÉORIE DES ESTIMATIONS 


$ 1. Propriétés générales des estimations 


1.1. Quelques relations. Pour chaque caractéristique statistique, 
on peut trouver de nombreuses estimations. Nous l'avons vu sur 
l'exemple des estimations des variances et des covariances. On peut 
obtenir d’autres estimations pour la variance d'une variable aléatoi- 
re scalaire normalement distribuée en exprimant la variance D, — 
= pu, dans la formule (3.89) à l'aide de n'importe quel moment cen- 
tré pair u,» et remplacer dans l'égalité obtenue le moment pu, par 
son estimation. Pour estimer l’espérance mathématique d’une varia- 
ble aléatoire scalaire dont la distribution est symétrique, on peut 
utiliser la médiane empirique, c'est-à-dire la valeur médiane X.,.;, 
dans la série des valeurs expérimentales X numérotées dans l'ordre 
croissant pour un nombre impair d'épreuves nr = 2v + 1 et la 
demi-somme de deux valeurs médianes (X, + X,.,)/2 ou la valeur 
AX, + (4—A)X,4, pour un nombre pair d'épreuves n = 2v(kA€ 
€ (0,1)). Il est naturel de s’efforcer de trouver les estimations les 
meilleures à un certain sens avec une variance minimale ou des 
estimations biaisées avec un écart-type de l'erreur minimale (point 
6.2.1). Pour cela, il est nécessaire d'étudier les propriétés générales 
des estimations et d'élaborer quelques méthodes générales pour les 
trouver. 

Nous allons considérer, comme auparavant, les résultats des 
épreuves (non nécessairement indépendantes) X,, ..., X, comme 
les coordonnées d’un vecteur aléatoire U à m dimensions (les lignes 
de la matrice nr X m aléatoire dans le cas d’un vecteur observé X 
à m dimensions) et nous noterons par g (4 | 6) la densité de pro- 
babilité de la variable U, dépendant d'un paramètre inconnu 6. 
Toute estimation du paramètre 6 représente, conformément à la 
définition du point 6.2.1, une fonction des résultats des épreuves U 


ne dependant pas de 6 :8 — po (U). L'espérance mathématique de 
cette estimation dépend, dans le cas général, du paramètre : 
MÈ= Mp(U)= | p(u) 8 (2/8) du= my (0). (1) 
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Pour une estimation sans biais de 6; on a, par définition, m, (8) = 6. 

> Nous considérerons, dans le cas général, que le paramètre @ 
est un vecteur à r dimensions et nous désignerons respectivement 
par 0/60 l'opérateur du gradient: 4/06 — [4/68, . .. 9/86,1T. Nous 
aurons alors ÔT /06 — (9/08, . . . 4/60,] et, en dérivant la formule (1) 
par rapport à 6, nous obtenons 


C 0Tg (u10 
me @= | pu) ER au = 


—œo 


Fi T AT 

_ | o (u) PEU à (118) du=M|8 EU |. (2) 
Ici, de même qu’au paragraphe 5.1, m, (8) représente une matrice 
carrée dont les éléments sont m,, (6) — ôm» (8)/08,, où m, (8), ... 
.., Mr (6) sont les coordonnées du vecteur m, (8). Les dérivées de 
la fonction Ing (u | 6) par rapport à 6,,..., ô, peuvent exister au 
sens habituel ou au sens des fonctions généralisées contenant des 
combinaisons linéaires des fonctions ô. Exactement de la même façon, 
en dérivant la formule 


| g (uI0) du = 1, 


nous trouvons 


CO 


Ô p t 01 s) 
s (ul je ( EUR & (418) du = 0, (3) 


ou encore 


oing(U]168 
+ = 0. “ 


M 
Il en découle, compte tenu de (2), la formule suivante : 
À à a 2 Ing(UI6 ’ : 
M (—6)z7= M [ (8 —6) EC | 2 me (8). (5) 
Ainsi, Le vecteur aléatoire 


__ ôlng(U16) 
LR 


possède une espérance mathématique nulle et sa covariance avec l'erreur 
6 — 6 de l'estimation @6 — œq (U) est égale à la matrice des dérivées 
my (0) du vecteur MO — m, (6) par rapport à 6,,...,0,. 
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1.2. Limite inférieure de la dispersion de l'estimation d’un para- 
mètre scalaire. On peut obtenir, à partir de l'égalité (5), la limite 


inférieure de la dispersion de l’estimation ©. 

> Considérons tout d’abord le cas d’un paramètre scalaire 6. 
Dans ce cas, toutes les grandeurs intervenant dans (5) sont scalaires 
et on peut appliquer à l'espérance mathématique du premier membre 
l'inégalité (3.45) pour les moments du second ordre des variables 
aléatoires scalaires. Nous obtenons ainsi 


[mi (0)2<M (Ô — 62. 1Z?, 
ou encore 
[ms (8)2< M (8 —0):.DZ. (6) 
Nous en tirons, dans le cas où DZ << oo, l'inégalité suivante 
[m, (6)? _ [me (6)J° ( 
DZ Dô In g/06 


où, pour des raisons de concision, on a éludé les arguments Uet 6 
de la fonction g. Cette inégalité a été obtenue pour la première fois 
par Fisher [111] (cf. également [28, 45, 84, 1141). 


Dans le cas particulier d’une estimation sans biais ô mo (8) = 1 
et on a M (8 — 6) — DO; l'inégalité (7) devient alors: 


2 4 { 
DO2TT= Li io < (8) 


M (ô—0)> 


Cette inégalité définit la limite inférieure (non nécessairement exacte) 
de la variance de l'estimation sans biais. Aucune autre estimation 
sans biais ne peut avoir une variance plus faible que celle du second 
membre de (8). 

Si DZ = co, alors les inégalités (6) et (7) deviennent triviales et 
ne définissent pas la limite inférieure de l'écart quadratique moyen. 
Cela a lieu par exemple dans le cas d’une fonction discontinue g (u |6) 
dont les points de discontinuité dépendent de 6. Dans ce cas, la 
dérivée 0 In g/68 contient des fonctions 6, et (0 In g/68)° n'existe pas 
(le carré d’une fonction 6 n'a pas de sens). 


1.3. Estimation efficace d’un paramètre scalaire. L'estimation © 
pour laquelle, dans l'inégalité (7), le signe d'égalitéest vérifié, est 
appelée estimation efficace. 

> En vertu de ce que nous avons démontré au point 3.3.4, le si- 
gne d'égalité dans (6) et, par conséquent, dans (7), s'obtient si et 
seulement si les variables aléatoires 6 — 6 et Z — 9 In g/08 sont 
liées par une dépendance linéaire : 


Z = ET = 0 (6) =e1p(L) —0), (9) 
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où le coefficient de proportionnalité c peut dépendre de 8, mais ne 
dépend pas de U. Il en découle, compte tenu de (4), que l'espérance 


mathématique d'une estimation efficace Ô est toujours égale à 6, 


MÔ = 6. Ainsi, toute estimation efficace est une estimation sans biais. € 
Le coefficient c dans (9) est facile à déterminer. Etant donné que 


pour une estimation efficace nous avons Dô — 1/D7Z, nous trouvons, 
à partir de (9), la relation 


DZ = «DO = c’/DZ. 


d'où il découle c = DZ — D In g/68. 

Il est clair qu'une estimation efficace n’existe que si et seulement. 
si la fonction à In g (u | 6)/08 peut être représentée sous la forme (9). 
Dans ce cas, le second membre de l’inégalité (8) représente la limite 
inférieure exacte de la variance des estimations sans biais: 


1 1 | 2 | 
DZ = Donges — inf DO. (10) 
M6=06 


Si la fonction 9 1n g/08 ne peut être représentée sous la forme (9), 
alors il n'existe pas d’estimation efficace. Dans ce cas, le second 
membre de (8) n’est pas la limite inférieure exacte de la variance de 
l'estimation sans biais. 

Remarquons que toute estimation efficace étant sans biais, il en 
découle que, pour aucune estimation biaisée, le signe d'égalité ne 
peut être atteint dans (7). Néanmoins, dans tous les cas où existe une 
estimation efficace, il existe également une estimation biaisée plus 
précise que l'estimation efficace, c’est-à-dire possédant une erreur 
quadratique moyenne inférieure. Toutefois, on n'utilise pas habituel- 
lement d’estimations biaisées pour éviter les erreurs systématiques 
quand le nombre d'épreuves n est faible. Quand #7 prend une valeur 
élevée, on n'obtient pas de gain substantiel en précision par rapport. 
à l'estimation efficace. C’est pourquoi on utilise toujours les estima- 
tions efficaces quand elles existent. 


Pour toute estimation sans biais Ô — p (Ü), le rapport du second 
membre de l'inégalité (8) au premier membre est appelé efficacité 
de cette estimation et noté e(): 


1 1 
DÔ-DZ DÔ-Dôln g/0 


L'efficacité de toute estimation efficace est égale à 1. L'efficacité de 
toute autre estimation sans biais représente un nombre positif 
inférieur à l'unité. 

Il apparaît clairement de (9) que si une estimation efficace existe, 
elle est unique car la formule (9) ne peut être vérifiée pour deux fonc- 
tions différentes . 


e (9) = (11) 
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Une estimation dont l'efficacité tend vers { quand le nombre 
d'épreuves croît indéfiniment est appelée estimation asymptotique- 
ment efficace. 

1.4. Limite inférieure de la dispersion d’une estimation d’un 
paramètre vectoriel. Passons maintenant au cas d’un paramètre 
vectoriel 8. Ecrivons l'inégalité (7) sous la forme 


(12) 


OÙ Yo = M (8 — 6)° est le second moment simple de l'erreur d'esti- 


mation @ =  (U) et & est une variable auxiliaire. Ainsi, la forme 
quadratique d’une variable scalaire £ dans le premier membre de (12) 
ne peut être supérieure, quelles que soient les valeurs de Ë, à la forme 
quadratique figurant dans le second membre. Cela nous conduit 
à penser qu'en construisant des formes quadratiques analogues pour 
le cas d’un paramètre vectoriel 6 nous pouvons étendre ce résultat 
aux estimations multidimensionnelles. 


Soit © — o (U) l'estimation d’un paramètre vectoriel 6 à r di- 
mensions. Le moment du second ordre de l'erreur de cette estimation 
est defini par la formule 


T, = M (Ô — 0) (ÊT — ET). 


Il est naturel de supposer qu'entre les coordonnées du vecteur 6 — 6 
il n'existe pas de dépendances linéaires. En pareil cas, la matrice l, 
est réversible. Il est naturel également de considérer qu'entre les 
coordonnées du vecteur my (8) il n'existe pas de dépendances de la 
forme œ (m, (8), ..., m, (8) = 0. Dans ce cas, la matrice m, (8) est 
réversible. Dans ces conditions, la généralisation de l'inégalité (12) 
au cas du paramètre vectoriel 8 est de la forme 


ETS E <ETUTE Mob) (13) 


où, pour des raisons de concision, on a noté 4 la matrice inverse de 
Ms Mo = (Me) *et Ë est une variable vectorielle auxiliaire (une ma- 
trice-colonne). 

> Pour démontrer (13), calculons le moment du second ordre du 
vecteur aléatoire 


V = T3 (Ê—06) —u7Z. 
Nous avons ainsi 
T,= MVVT=TSM (8 — 6) (ÔT— OT) Ts! — 
— T3tM (Ê—6) ZTuy—uTMZ (ÊT— OT) Lo! + uTMZZTpy. 
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Nous obtenons alors, en tenant compte du fait que 


M (Ê — 0) (ÊT — OT) — To, MZZT=K,, 
M(Ë—0)27=me= ps, MZ (ÈT—07) = mr = (ur), 
l'expression 
Po =biAilo—To. 
Or, tout moment du second ordre représente une matrice définie non 


négative (paragraphe 3.3), de sorte que nous avons ET l'E > 0 pour 
tous les E, d’où découle (13). Dans le cas particulier d’une estimation 


sans biais © nous avons m, (0) = 6, my (8) = 7, To = Ko et l'iné- 
galité (13) devient 


ETKHRERETKE. (14) 


L'’inégalité (14) signifie géométriquement que  l’ellipsoide 
ET K.E = c pour tout e est situé entièrement à l’intérieur de l’ellip- 


soïde ÊT KS'E = c pour toute estimation 6 = p (U). Par conséquent, 
l'ellipsoïde de dispersion ET Kÿ'E — 1 de toute estimation sans 


biais Ô — œ (U) est borné intérieurement par l'ellipsoide fixé 


ET KE = 1. 
La matrice de variances-covariances 
__ sr 9lng 9 Ing 
K:=M 06 080 


du vecteur aléatoire Z = 4 In g/68 est appelée matrice d'information 
de Fisher. 
1.5. Estimation efficace d’un paramètre vectoriel. Si le signe 


d'égalité est atteint dans (13), alors l'estimation ô — p (U) est 
appelée efficace. Si le produit de la matrice de variances-covarian- 


ces À, d'une estimation consistante @ --  (U) et de la matrice d'in- 
formation de Fisher X. tend vers la matrice-unité quand le nombre 


d'épreuves n croît indéfiniment, alors l'estimation 8 — p (U) est 
appelée asymptotiquement efficace. 

Il découle de la démonstration de la relation (13) que le signe 
d'égalité dans (13) ne sera atteint que si et seulement si l, — 0 et, 
par conséquent, avec une probabilité unité, on a V = 0, c'est-à-dire 

9ng(U1]6) 0e 
TZ = pr 5 =T; (0 —0). (15) 
Nous pouvons alors conclure, en prenant en considération Île fait que 
conformément à (4) AZ — 0, que l'espérance mathématique de 


l'estimation efficace À est égale à 8, autrement dit que toute estima- 


17- 1244 
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tion efficace est sans biais. Mais dans le cas d'une estimation sans 
biais on a l'y, = Kw Me = Ho = Jet, en vertu de (14), K3° = K2. 
Par conséquent, on peut écrire (15) sous la forme 


Z= EEK È—O—K;pU)—-0. (46) 


Cette condition est nécessaire et suffisante pour que @ = @ (U) soit 
une estimation efficace du paramètre vectoriel 6. 

1.6. Limites inférieures des variances des coordonnées de l’esti- 
mation d’un paramètre vectoriel. Il découle clairement de (16) que, 
si une estimation efficace d'un paramètre’ vectoriel existe, alors elle 
est unique. 

Il découle de la comparaison de la formule (16) avec la condi- 
tion (9) de l'efficacité d’une estimation scalaire que les coordonnées 
d'une estimation efficace d'un paramètre vectoriel 8 sont des estimations 
efficaces des coordonnées correspondantes du vecteur @ si et seulement si 
la matrice de variances-covariances K, du vecteur Z est diagonale. 

> 11 découle de la définie non négative que nous avons onu 
de la matrice À, — K%! la définie non négative de la matrice X, 
K:! *). Par conséquent, les éléments diagonaux de la matrice Ke ne 
peuvent être inférieurs aux éléments diagonaux correspondants de la 
matrice Æ:!. Cela donne les limites inférieures suivantes pour les 
variances des estimations des coordonnées du vecteur 86: 


D6,>Ki,/1;|, (17) 


où Æ5» est le complémentaire algébrique de l'élément #, — DZ, 
— M 1 6 In g/06, |* dans le déterminant | X, | de la matrice he 
Cette limite inférieure est atteinte pour les coordonnées d’une estima- 


tion efficace 8 du vecteur 6. 
Remarquons enfin qu'étant donné que dans le cas d'une estima- 


tion efficace © l'estimation 6, du paramètre 6, n'est efficace que si 
la matrice K, est diagonale, il découle des résultats obtenus l'iné- 
galité 

ppl| K: 12 1/k5p, 
dans laquelle le signe d'égalité ne peut avoir lieu que si et seulement 


si la matrice X, est diagonale. < 
Ainsi, dans le cas de l'estimation d’un paramètre vectoriel in- 


connu 6 la limite inférieure (17) de la variance de la coordonnée 6, 
de son estimation sans biais © peut être plus grande que la limite 


*) Pour démontrer la condition suffisante, il suffit de ramener les deux 
matrices À, et À7' à une forme diagonale à l'aide d’une même transformation 


linéaire. 
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inférieure (8) de la variance de l'estimation sans biais 6, du para- 
mètre 6, dans le cas où 6, est le seul paramètre lie inconnu. 
Cela & "explique par le fait que, dans le deuxième cas, les estimations 
peuvent être des fonctions des résultats des observations U dépendant 
des autres coordonnées connues du vecteur 6, de sorte que la classe 
des estimations admissibles est plus large dans le second cas que 
dans le premier. 

1.7. Exhaustivité d’une estimation efficace. Démontrons qu’une 
estimation efficace est toujours exhaustive. 


> Soit © — p(U) est estimation quelconque d’un paramètre 
vectoriel 8 à r dimensions, et ,41 (U), . . ., Pmn (U) des statistiques 
scalaires quelconques telles que pour toutes les réalisations w de 
la matrice U le jacobien desfonctionsp, (u), . . ., @r (u), P,+1 (), . . . 
.. Pmn (4) par rapport aux éléments u,, (p = 1, ..., m; q = 
— 4,...,n)est différent de Oet, de plus, fini: 


J=°@u-Qmn) 20 TI co. 


ô (UTET ….. Umn) 


On peut alors, en introduisant une statistique vectorielle YŸ de coor- 


données 

Yp = Pr+p (U) p=1,..., mn —r), 
exprimer la densité de probabilité des résultats des observations U 
à l’aide de la densité de probabilité conjointe h (6, yl6) de l'estima- 
tion Ô et de la statistique Ÿ en vertu de la formule (5.34): 


g(ul0) —R(6, ylI6)IJ |. 


Or, nous avons À (6, y | 0) = p (0 | 8) g (y 16, 6), où p (6 | 8) est. 


Ja densité de probabilité de l'estimation 8 et q (y 6, 6) la densité 
de probabilité conditionnelle de la statistique Ÿ. Nous avons, par 
conséquent, 


gl) = pe) qu 16, 8) 17 |. 
Comme le jacobien J ne dépend pas de 86, il en découle que 


91ng(ul0) _ 9 1n p (BI) PL LEPAPRE 6) 


66 (18) 


Nous en tirons alors, compte tenu de (16) pour le cas d’une estima- 
tion efficace ©, la relation 


9 1n p (810) 


= à ô1n q (vi, €) 
= K,(0—0)- URI 


96 
17% 
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Le premier membre ne dépend pas de y. Par conséquent, le second 
membre ne dépend pas non plus de y. C’est pourquoi nous avons 


21 6, 0 21 6, 6! 

[ IG ) à (y16; 6) dy — EI ) 
Mais la formule (3) est valable pour toute densité de probabilité, 
y compris pour g. Parconséquent,nousavons 0lnq (y | 6, 8)/08 = Oet 


ôlnp(616 . 
TEEN Lx, (Ô — 8). (19) 


Dans ce cas, la densité de probabilité q (y. | 8, 8) ne dépend pas du 
paramètre 6 quel que soit le choix des fonctions p,+1, . . ., Pmnr Ce 
qui démontre l'exhaustivité de l’estimation efficace. 

Ainsi, pour qu'une estimation © soit efficace, il est nécessaire et 
suffisant qu'elle soit exhaustive et que sa densité de probabilité vérifie la 
condition (19). 

1.8. Cas des épreuves indépendantes. Dans le cas des épreuves 
indépendantes, la densité de probabilité g (u | 8) est égale au produit 
des densités de probabilité des valeurs X,, ..., À, de la variable 
aléatoire À, obtenues par suite de la réalisation des épreuves. C'est 
pourquoi, en notant f (x | 0) la densité de probabilité de la variable 
aléatoire À, nous aurons 


In g (u]9) — à In f (xx 10). 


Nous obtenons alors, en utilisant à nouveau l’indépendanc edes varia- 
bles aléatoires X,, ..., X, et compte tenu de (4), l'expression 


=> D 2 RICE _ nD ROUE 


dans le cas d'un 6 . et 


S ag 20 f Xpl0) 87 In f (Xl) _ 
00 96 LL 
PP. q— 


=> FRAME S IT, D nf (Xp10) ke. 


où À — A [(0 1n f/08) (ôT In pit est la matrice de variances-cova- 
riances du vecteur aléatoire 
__ 8Inf(X[0) 

dé 0 
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dans le cas d’un vecteur 6. Cela fait que les inégalités (7) et (8) dans 
le cas d’un 6 scalaire se mettent sous la forme 


[m{:(8)]° 


MO—NZ;T Sn pe (20) 
Dô>——| (21) 


nD à 1n f/08? 


et les conditions d'efficacité (9) et (16) de l'estimation 8 = o (U) 
s’écriront sous la forme 


D PERD Le p(rs .…., 24) — 081, (22) 


k=1 


où c — nK, K — D0 In f/06 dans le cas d’un paramètre scalaire 6. 
Ainsi, l’estimation efficace © = œ (X,, ..., À,) n'existe que si et 
seulement si la densité de probabilité f (x | 0) de la variable aléatoire 
observée X vérifie, pour tous-les z,,...,zx,, la relation (22) pour une 
certaine fonction . 


Exemple 1. Dans le cas de l'estimation de l'espérance mathématique 
m et de la variance D d'une variable aléatoire X normalement distribuée, nous 


avons 
Inf(zim, Dy=— Lin CrD)— pont 


et, par conséquent, 


0lnf _z—m dinf _ 1 
ôm — D D —2ps (w—m)—DI], 
61 D) 1/< 
D ER DL (Dannm)= + Em) 
k=1 ‘ka! 
D 61 f(zrlm. D) Le 
nf(rralm. D)_ nn _— 
D — D —"2D3 [=> Gx—m) D]. 
hk=1 k=1 


11 découle de ces égalités que la moyenne empirique X représente une estimation 
efficace de l'espérance mathématique d'une variable aléatoire normalement 
distribuée et qu'il n'existe pas d'estimation efficace de la variance, ni d'estima- 
tion efficace du paramètre vectoriel (m, D), étant donné que la condition (22) 
n’est vérifiée que pour la seule coordonnée m de ce paramètre *). Etant donné que 


9nf _ 1 p2nf 1 


Er D” 0D 2D ? 


*) Si l'espérance mathématique m est connue, alors l'estimation D = 
= Ÿ (Xx — m)’/n de la variance D est efficace. 
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alors le second membre de l'inégalité (21) est égal à D/n pour l'estimation m 
et à 2D?/n pour l'estimation D. La première de ces limites, comme il apparaît 
de (6.13), coïncide avec la variance de X, comme on pouvait s’y attendre pour 
une estimation efficace. En comparant la deuxième de ces limites à la variance 


de l'estimation D (6.19), nous voyons que l'efficacité de l'estimation D est 
égale à (7 — 1)}/n. Etant donné que (nr — 1}/r —+ 1 quand r —+ ©, il en découle 


que l'estimation D est asymptotiquemant efficace. 
Comme nous avons l'égalité 


À um = À Ga-55+n Em n me 


alors la densité de probabilité conjointe des résultats des épreuves s'exprime 
sous la forme 


Eur eus 2nim, D) (RD) RP exp {—- G—mr—E), 


autrement dit, ne dépend que de la valeur des statistiques X et S et ne dépend 
pas directement de z;, ..., r,. En vertu du dernier théorème du point 6.2.2, 


il en découle que la statistique vectorielle (X, S) est exhaustive pour les para- 
mètres m, D. En vertu de l'affirmation établie au point 6.2.2, toute fonction 


bidim nsisnnelle des variables X, S est également une statistique exhaustive 
pour m et D. En particulier, le vecteur [X DI]T, de même que [X D*]T, repré- 
sente une estimation efficace du paramètre vectoriel [m DT. 


Exemple 2. On démontre exactement de la même façon que dans le 
cas del’estimation d l'espérance mathématique m et de la matrice de variances- 


covariances Æ d’un vecteur X normalement dist ribué, la moyenne empirique X 


est l'unique eStimation efficace du vecteur m et K = S/(n — 1) est une estima- 
tion asymptotiquement efficace de la matrice Æ ; de plus, lo couple X, S est une 
statistique exhaustive pour m, K. Il découle de cette dernière affirmation que 


le couple X, < de même que X, K*, roprésente une estimation exhaustive pour 
m, Ke 


1.9. Cas d’une variable observée discrète. Considérons maintenant 
le cas particulier où la variable aléatoire observée X est discrète. 
Désignons par xt, ..., zN) ses valeurs possibles et par p, (6), ... 
..., P x (8) leurs probabilités. Dans ce cas, la densité de probabilité 
f (x | 8) est définie par la formule 

N 
f(&10)= À pe (8) 8 (x—20) (23) 
Si les valeurs 21), . .., z(N) de la variable X ne dépendent pas du 
paramètre inconnu 6 et si les probabilités p, (8), ..., px (0) sont 
dérivables par rapport à 6, alors nous avons 


N 


fe) 6 1 MC 
fl ) >) PO 6 (z— x). (24) 


vai 
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Il en découle que le rapport (df/08)/f. prend les valeurs (0p./08)/p. 
aux points z = zv (v = 1,..., N) et reste indéterminé pour tous 
les autres points. C'est pourquoi nous pouvons écrire 


N 
ue ôlnf 6TInf _ ôinp, 8 Inpy *) 
K=M—S- 5 -= À Pr FT: (25) 


v=1 


Désignons par M, le nombre de réalisations de la valeur z()(v — 
= 1,...,N) de la variable aléatoire X au cours de » épreuves. Il 


découle de (22) que l’estimation efficace 9 = @(M,,..., MX) du 
paramètre 0 n'existe que si et seulement si, pour tous les nombres 
entiers non négatifs m1, ..., mn, tels qum +...+mn=n, 
on a la relation 


D My PES ec [pmas..., mx) —0]. (26) 


v=1 


Exemple 3. Dans le cas de l'estimation de la probabilité d’un événe- 
ment, on observe, au cours de chaque épreuve, le nombre de réalisations de cet 
événement, une variable aléatoire discrète prenant deux valeurs, 0 et 1, avec 


les probabilités respectives 4 = 1 — p ct p. Le paramètre inconnu est p. Nous 
avons, dans ce cas, 


ôlnp _1 ôing _ 1 1 
ôp p° 


et pour un nombre arbitraire de m réalisations de l'événement, 


ôp P q pq \n 

*) Pour une démonstration rigoureuse de cette formule, choisissons un 
e > 0 suffisamment petit pour que chaque intervalle Es — 8, xt + e) ne 
contienne aucune valeur possible de la variable X, différente de xt’, et consi- 


dérons le cas où la densité de probabilité f (x | 6) de la variable X est définie 
par la formule 


N 
f(&10)= D p,(8) de (z—2), 
v=i 


ne Ôe (z) = 1/2e quand | z | < e et 6, (x) — 0 quand | z | > e. Nous obtenons 
ors 


ôInf _ôlnpy _ : 
68 ca pour |z—zx /|<e (v=1,...N) 


et 


ra N 
T T 
K= | 9nf(z16) 9 20) f (zlo) 4 mn: ôlnp, 9° np, 


26 E 30, 30 _* 
—00 Væi 


Or, comme cela est vrai pour tout e >> 0, il en découle que (25) est encore vrai à 
la limite quand e —+ 0. 
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Ainsi, la condition (26) est vérifiée et, par conséquent, il existe une estimation 
efficace de la probabilité p, qui est la fréquence de l'événement. Le coefficient c 
est égal, dans ce cas, à n/pq. La formule (25) donne alors 


K =D = —— —— = 
ôp p?  g? pq” 
et l'inégalité (20) devient 
2 [m, (p)}? 
pe > mt (pt 2 
APR [me , 


où my (P) — MP. 11 découle de (6.7) que le signe d'égalité est ici obtenu si 


l'estimation P de la probabilité p est égale à la fréquence. Cela confirme, une 
fois encore, le fait que la fréquence est une estimation efficace de la probabilité 
d’un événement. 


Exemple 4. Dans le cas de l'estimation des probabilités p;,, . .., pv 
des valeurs z,,...,r, de la variable aléatoire discrète X, 0—[p;,...p\.1lT, 
PXx = 1— pi —...— pr et, par conséquent, nous avons 

Ô 
np Ou OREN Le Nei 
OPu Pv dPu PN 
N ol N-1 
D Py _ My = ( Pu }- n (= ] 
= 2 ——— = — | —— —— —— ps |. 
2m Pa Pa  PN Pan MT py à CR 


En comparant cette égalité à (26), nous parvenons à cette conclusion que le 


vecteur des fréquences (P, ue Py_lT est une estimation efficace du paramètre 
vectoriel [p1 ... p\_1]7. Etant donné que la matrice 


M ol 271 
K= D pot Er — 
v=i 


06 06 
PL'+PY PN :  PN 
1 — 1 — —{ 
- PN  P2 TPN  :-- PN 
Px° PNY . PN-3TPN 
n'est pas diagonale dans ce cas, il en résulte qu'aucune des fréquences P., ... P N 


prises séparément n'est une estimation efficace des probabilités correspondantes. 
Cela s'explique par le fait que dans le cas d’une probabilité inconnue p,. alors 
qe les autres sont connues, on peut construire une estimation sans biais dépen- 

ant des probabilités connues et possédant une variance plus faible que la fré- 
quence. 


$ 2. Principales méthodes de recherches des estimations 


2.1. Méthode du maximum de vraisemblance. La méthode géné- 
rale de recherche des estimations la plus importante du point théori- 
que est la méthode dite du maximum de vraisemblance de Fisher. Cette 
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méthode est basée sur l’adoption, en qualité d'estimation du paramè- 
tre inconnu 6, de sa valeur telle que la densité de probabilité des résul- 


tats des épreuves X,,..., À, prenne la plus grande valeur pour les 

réalisations obtenues z,, . . ., x, des résultats des épreuves X,,... 
NAS 

g(u|68) = g(xz;,...,x1, | 0) = max. (27) 

La fonction g (x1,...,x, | 8) est appelée fonction de vraisemblance et 


la valeur 6 pour laquelle elle atteint sa valeur maximale est appelée 
estimation du maximum de vraisemblance du paramètre 6. Les estima- 
tions du maximum de vraisemblance sont habituellement détermi- 
nées en maximisant In g (x,,..., x,| 8) compte tenu du fait que y — 
— ]n x est une fonction rigoureusement croissante. 

Dans le cas des épreuves indépendantes, on a 


n 
Ing(xyx, ..., 2189 = 2 ln f(z,[0), (28) 
où f (x | 0) est la densité de probabilité de la variable aléatoire 
observée X. Si f (x | 8) possède pour tous les x une dérivée continue 
par rapport à 6 (un gradient continu dans le cas d’un paramètre vec- 
toriel 6), alors, pour déterminer l'estimation du maximum de vrai- 
semblance, nous obtenons l'équation 


 2lnf(ænl0) 
D a (29) 


Dans le cas d’un paramètre vectoriel 8 à r dimensions, cette équation 
représente une équation vectorielle de même dimension, c’est-à-dire 
un système de r équations scalaires par rapport aux coordonnées du 
vecteur 6. Il est naturel que seules les solutions de l'équation du 
maximum de vraisemblance (29) qui dépendent des résultats des 
épreuves Zy, « - «, ZA puissent servir.-en qualité d’estimations du para- 
mèêtre 6. Si l'équation (29) admet des solutions ne dépendant pas de 
Ts + + < En, On doit les rejeter. 


S'il existe une estimation efficace Ô — @® (Ty, + « +, Zn), alors, er 
vertu de (22), l'équation du maximum de vraisemblance (29) est de 
la forme 


cip(z, -.., x.) — 60] = 0. 
Il en découle que si une estimation efficace existe pour le paramètre 6, 


alors elle est la solution unique de l'équation du maximum de vraisem- 
blance. 


Supposons maintenant que l'estimation 0 — @ (Zis + + +, Tn) Soit 
exhaustive pour 6. Dans ce cas, la densité de probabilité q (y | 6, 6} 
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figurant dans (18) ne dépend pas de 8 et, en vertu de (27), (28) et (18), 
l'équation du maximum de RARE (29) est de la forme 


a (30) 


Cela montre que, dans le cas de l'existence d'une estimation (ou d'une 
statistique) exhaustive pour 0, toutes les solutions de l'équation du mazi- 
mum de vr 1isemblance sont des fonctions de cette estimation (statistique) 
exhaustive. [1 découle alors de l’affirmation démontrée au point 6.2.2 
que s'il existe une statistique exhaustive pour 6, alors toutes les solutions 
de l'équation du maximum de vraisemblance sont des estimations exhaus- 
tives du puramätre 06. 

Dans le cas d’une variable aléatoire observée discrète X prenant 
des valeurs possibles (24), ...,xz(N) avec des probabilités p, (0),.. 

., Pn (8), la fonction à In f re | 0)/08 prend la valeur 9 Inp ,(8)/68 
au point æ(W (v = 1,...,N). C’est pourquoi si m,, parmi les va- 
leurs expérimentales 2, . «Zn dela variable observée X, sont égales 
à a (v—=1,..., Nm +...+mn = n, alors l'équation du 
maximum de vraisemblance (29) est de la forme 


N 
In p, (6 
> my RO = 0. (31) 


va={ 


Les estimations du maximum de vraisemblance sont, dans des 
conditions suffisamment générales, consistantes, asymptotiquement 
normales et asymptotiquement efficaces [35, 45, 86]. 


E xcmple 5. Dans le cas de l'estimation de la probabilité d’un événe- 
ment p, l'équation (31) est de la forme (exemple 3) 


où m désigne le nombre de réalisations de l'événement. L'unique solution de 
cette équation est la fréquence, p = m/n, en pou conformité avec le fait que 
la fréquence est une estimation efficace de probabilité P. 

E xcmple 6. Dans le cas de l'estimation de l'espérance mathématique 
m et de la variance D d'une variable aléatoire normalement distribuée X, 
l'équation du maximum de vraisemblance (29) représente, conformément au 
résultat de l'exemple 1, un système de deux équations 


HE-m=0 [+ : Ga—m}—D |=0. 


La première de ces deux équations us une solution unique m = x (X est 
une estimation efficace). En portant cette valeur de m dans la seconde équation 
et en la résolvant, nous obtenons 


ñn 
1 — 


k=1 
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Ainsi, la méthode du maximum de vraisemblance introduit, dans ce cas, la 


re late empirique X en qualité d'estimation de l'espérance mathématique m 
et l'estimation biaisée D* pour la variance D. 

Exemple 7. Dans le cas de l'estimation de l'espérance mathématique m 
et de la matrice de variances-covariances X d’un vecteur aléatoire X à r dimen- 
sions normalement distribué, nous avons 


Inf(zim K)=+ ln |CI— in C2) + (T—mT)C(z—m)= 


r 
| n 
=-- In ICI—- ln Cr) D Cpq (zp—mp) (za — Ma); 
P, 1=1 


CES 


où C — K-!. Les matrices C et X étant liées par une dépendance biunivoque, 
alors dans l'élaboration des équations du maximum de vraisemblance, on peut 
prendre les dérivées de In f (x | m, K) par rapport aux éléments de la matrice C. 
Nous trouvons ainsi, en prenant en considération le fait que la dérivée d'un 
déterminant par rapport à l’un de ses éléments est égale au complémentaire 
algébrique de cet élément, que 


- 
gln m, K 
ne om) Cps (zs — Ms), 
s=1 
ônf(zim, K)  Cpq 


œasb 


OC pq 21C| 


— 5 (en mp) (mg 


=+ [kpg—(rp—mp) (cg ma)l, 


où Cha est le complémentaire algébrique de l'élément c,, dans | C |. En rempla- 
çant ici x, x) respectivement par z;, zpp Ot en sommant les expressions obtenues 
sur k, nous Obtenons, en égalant les résultats à 0, le système des équations du 
maximum de vraisemblance 


r n 
> Csp ( > zhs—nme) = 0, 
sm] k=1 


rm 
Rkpg— D (zap—mp)(zag—ma)=0 (P, q=1, ..., r). 
Ham! 


Comme le déterminant de la matrice C est différent de 0, il en découle que le 
premier groupe d'équations possède une solution unique 


ñn 
1 = 
Ma Dans (=, 7). 
h=1 
En portant cette solution dans le second groupe d'équations, nous trouvons 
n 


1 = _ 
kpa= = D (znp—2p)(zhg— 79) (Ps Qc rh 
k=1 
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Ainsi, la méthode du maximum de vraisemblance conduit, dans ce cas, à adopter 
la moyenne empirique X comme estimation de l'espérance mathématique et 
l'estimation sans biais K* — S/n — (nr — 1) K/n comme estimation de la 
matrice de variances-covariances. 

Exemple 8. Montrer que si la variable aléatoire observée X suit une 
distribution exponentielle f (x | À) — Àe-Ax1 (x), alors l’estimation du maximum 
de vraisemblance du paramètre À est une grandeur inverse à la moyenne empi- 


rique de la variable X : A — 1/X. Cette estimation est-elle ou non efficace ? 
Est-elle exhaustive? Résoudre toutes ces questions dans le cas où l’on estime 
le paramètre v = À-l — MX. 

Exemple 9. Dans le cas de l'estimation des paramètres À et u de la 
distribution 


Au+i.u 
(U+1) 
les équations du maximum de vraisemblance sont de la forme 


"(At -5) 0 


f(zlà, u)=— ex (zx) 


n 
l'(u+1) 
ninÀi+ > Inxzx—n ur = (. 
a (u + 1) 
La première de ces équations donne 
À = (u + 1)/z. 


En portant cette expression dans la seconde équation, nous la mettons sous la 
forme 


De Fu) — - _ yqu=t2wTrt) 
js 0 lur) 


Cette équation peut être résolue par la méthode des approximations successives, 
en utilisant la table de la fonction Y (z:). Nous trouverons alors l'estimation du 
paramètre À. Montrer que les statistiques X et S — y X,... X, sont exhaus- 
tives et qu'il n'existe pas d'estimations efficaces des paramètres À et u. Remar- 
jo que X est une estimation efficace du paramètre v = (u + 1) À-! = MX, 
e même que dans le cas de la distribution exponentielle (u = 0). 

Exem P le 10. Dans le cas de l'estimation du paramètre u — MX de la 
distribution de Poisson p, (u) = uYe-u/v! (v = 0, 1, 2, ...) et l’équation du 
maximum de vraisemblance (31) est de la forme 


Cette équation possède une solution unique 


j 00 
CRETE D VMY) 
v=0 
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représentant une estimation efficace du paramètre u. Or, nous avons l'égalité 


étant donné que m, représente le nombre de valeurs expérimentales de la. va- 
riable X égales à v, c'est-à-dire le nombre des x, qui sont egaux à v. Ainsi, dans ce 
cas également, la moyenne empirique est une estimation efficace de l'espérance 
mathématique de la variable aléatoire. 

Exemple 11. Dans tous les exemples considérés, la moyenne empirique 
s'est avérée une estimation efficace de l'espérance mathématique. Pour montrer 
qu'il n’en est pas toujours ainsi, il suffit de considérer le cas où une estimation 
efficace de l'espérance mathématique n'existe pas, par exemple le cas rappelé 
au paragraphe 1 d’une densité de probabilité discontinue, dont les points de 
discontinuité dépendent de l’espérance mathématique pour laquelle le second 
membre de l'inégalité (D est égal à 0. Considérons, en qualité d'exemple de ce 
genre, une variable aléatoire X, uniformément distribuée dans l'intervalle 
(m — &, m + &) avec un paramètre inconnu m — MX. Dans ce cas, nous avons 
f(zlm) = 1/2 quand x € (m — &, m + a) et la fonction de vraisemblance est 
constante et égale à 1/(2a)n pour toutes les valeurs de m pour lesquelles zx, € 
E(m—a, m+ a) (k = 1,..., n#); elle est égale à 0 pour tous les autres m. 
Or, zx E(m — &, m + «) quand m € (x, — @, x, + &). Par conséquent, l’en- 
semble des valeurs m pour lesquelles la fonction de vraisemblance est diffé- 
rente de 0 est l'intersection de tous les intervalles (x, —«@, x, + @) (k = 1,... 
..., An), c'est-à-dire l'intervalle (max x; — &, min x, + «&). Toute valeur m 
dans cet intervalle représente une estimation du maximum de vraisemblance de 
l'espérance mathématique m. Or, la moyenne empirique x peut ne pas appartenir 
à cet intervalle. 

Exemple 12. Si l'on doit estimer les deux paramètres de la distribu- 
tion uniforme m et &, alors, comme la fonction de vraisemblance est inverse- 
ment proportionnelle à œn, il convient de prendre en qualité d'estimation de & 
la valeur minimale de &, compatible avec les résultats des épreuves, c'est-à-dire 
le &« minimal pour lequel nous avons max x, — à << min rx, + &. Cette valeur 
de « sera (max z, — min r,)/2. Nous obtenons alors pour m une estimation 
unique m — (max zy, + min zx), )/2. 


2.2. Une propriété de la méthode du maximum de vraisemblance. 
Le théorème suivant est utile à la recherche des estimations du 
maximum de vraisemblance: si les paramètres 8 et Ÿ sont reliés par une 
dépendance continue biunivoque, alors leurs estimations du marimum 
de vraisemblance sont reliées par cette même dépendance. 


> Supposons que les paramètres 8 et Ÿ soient reliés par une dépen- 
dance biunivoque Ÿ — œ (8), 68 — œ@-! (8), et que les fonctions œ et 
ç-! soient continues. Soit 8 l'estimation du maximum de vraisem- 


blance du paramètre 8 et 8 — 1) (8). On demande de démontrer que ê 
est l'estimation du maximum de vraisemblance du paramètre 6. 


Il découle du fait que ô est l'estimation du maximum de vraisem- 
blance que g (u | 8) << g (u | 8) dans un certain voisinage du point ô. 
Il on découle,en vertu des relations 6 — p-! (Ô), 0 — p”1 (8) ct de la 
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continuité de œ@-! que g (u | @-! (8)) < g (u | y”! ()) dans un cer- 
tain voisinage du point ô. 

Si 8 est l'estimation unique du maximum de vraisemblance du 
paramètre 6, alors nous avons g (u | 8) << g(u | 6) pour tous les6 et, 
par conséquent, g (u | @-! (Ô)) < g (u | o-! (9) pour tous les #, 


autrement dit 8 est l'estimation unique du maximum de vraisem- 
blance du paramètre 6. < 


Exemple 13. Trouver les estimations du maximum de vraisemblance 
des valeurs propres et des vecteurs propres de la matrice de variances-covariances 
K, du vecteur aléatoire X à r dimensions. 

Dans ce cas, le rôle du paramètre 6 appartient à + et celui du paramètre Ô 
au vecteur dont les coordonnées sont les valeurs propres À, . . ., À. et les coor- 
données indépendantes des vecteurs propres m1, ..., ®,. Montrons que les 
vecteurs 6 et Ÿ ont une même dimension. En vertu de la symétrie de la matrice 
de variances-ovariances, elle est entièrement déterminée par r (r + 1)/2 de ses 
éléments k,4 quand q > p. Par ailleurs, r* coordonnées des vecteurs q1, . . ., r 


sont liées par r (r + 1)/2 relations (3.62), Pa —= Ôpgr 9 > P. C'est pourquoi 
le nombre de coordonnées indépendantes des vecteurs 1, . .., q, est égal à 
r® — r (r + 1)/2. Ainsi, les valeurs propres À,, . .., À. et les vecteurs propres 
Ps - - +, P- Sont entièrement déterminés par r -- r° — r (r + 1)/2 = r (r + 1)/2 
nombres. Enfin, en vertu des relations (3.61), (3.67) et (3.68) dans le cas des 
valeurs propres différentes À,, ..., À. la matrice X+, l'ensemble des valeurs 
propres À1,..., À, de même que l’ensemble des vecteurs propres 1, . . ., y 
sont liés par une dépendance continue biunivoque. En vertu du théorème que nous 
avons démontré, les estimations du maximum de vraisemblance des paramètres 
K, d’une part et À, . . ., Ars Pa, - « -, @ d'autre part sont liées par la même dé- 
pendance. Par conséquent, les estimations du maximum de vraisemblance des 
valeurs propres À,, . . ., À, ct des vecteurs propres @,,...,- de la matrice A. 
sont les valeurs propres À%, ..., À* et les vecteurs propres p*, ..., œ* de la 
matrice 
n ñn 


1 = = = 
Kt=— D Ga) GRR, =D xs 
k=1 k=1 


(qui, conformément au résultat de l'exemple 6, sert d'estimation du maximum 
de vraisemblance pour la matrice K,). 

Dans le cas où parmi les valeurs propres A1, . . ., À, certaines coïncident, 
les vecteurs propres correspondants ne sont pas définis univoquement. Toutefois, 
on peut affirmer dans ce cas également que les valeurs propres et les vecteurs 
propres des estimations du maximum de vraisemblance de la matrice X+ re- 
présentent les estimations du maximum de vraisemblance des valeurs propres et 
des vecteurs propres correspondant aux valeurs propres simples et de certains 
SAS propres convenablement choisis correspondant aux valeurs propres 
multiples. 

On peut démontrer que dans le cas des valeurs propres différentes À,,..., À. 
de la matrice X, les valeurs propres À*, . . ., À* seront différentes avec une pro- 
babilité 1 et, par conséquent, on peut affirmer que les vecteurs propres p#, . .. 

.., ®* seront définis univoquement avec cette même probabilité 1. 


2.3. La méthode des moments. La deuxième méthode générale 
pour trouver les estimations des paramètres des distributions est la 
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méthode des moments. Cette méthode est basée sur la détermination 
des paramètres inconnus à partir des équations obtenues en égalant les 
estimations empiriques des moments aux valeurs théoriques des mo- 
ments respectifs, dépendant des paramètres inconnus. Par exemple, 
si la densité de probabilité f (x | 8) de la variable aléatoire X observée 
dépend d’un paramètre vectoriel inconnu 6 à r dimensions, alors, 
pour trouver l'estimation de ce paramètre, on égale les estimations 
de r moments quelconques de la variable À aux moments théoriques 
correspondants. Dans le cas d’une variable aléatoire observée sca- 
laire X, le paramètre 0 à r dimensions est habituellement déterminé 
à partir des équations 


ap (8)=<+ 5 zx? (p=1,...,r). 


h=1 


Dans le cas d’une variable vectorielle observée À, on prend les équa- 
tions analogues pour r moments d'ordre le plus petit possible. En 
règle générale, on se limite au moment d'un ordre non supérieur 
à quatre. 


La méthode des moments s'avère souvent plus simple que la mé- 
thode du maximum de vraisemblance. 


Exemple 14. Trouvons l'estimation du paramètre À de la distribution 
exponentielle par la méthode des moments. Il suffit pour cela d'estimer un seul 
premier moment, l'espérance mathématique MX = 1/4. Nous obtenons alors la 
même estimation que par la méthode du maximum de vraisemblance. 

Exemple 15. Dans le cas de l'estimation des paramètres À, u de la 
distribution y, nous obtenons, en égalant le premier et le second moments à 
leurs estimations correspondantes, les équations 


n ñn 
+1 1 (u+1)(u+2) _1 : 
Se D 
k=1 h=1 
Les expressions théoriques des moments de la distribution y ont été obtenues 


ans l'exemple 3.16). En divisant la seconde de ces équations par la première, 
élevée au carré, nous obtenons 


pres 1. > 7? 
?. 


u+4 nr? 


La résolution de cette équation nous donne 
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on trouve ensuite l'estimation du paramètre À: 


— u + 1 _ TZ 


n 
l 1 D 22 — 72 
n R 


R=1 


Nous voyons ainsi que, dans ce cas, les estimations des paramètres par la mé- 
thode des moments sont bien plus simples que par la méthode du maximum de 
vraisemblance appliquée dans l'exemple 9. 

Exemple 16. Trouvons, par la méthode des moments, les estimations 
des paramètres m et & de la distribution uniforme sur l'intervalle (m — &, m + a). 
En utilisant les estimations des deux premiers moments et les résultats du cal- 
cul des moments de la distribution uniforme effectués dans l'exemple 3.3, nous 
obtenons les équations 


nr ñn 
| 3m°+ a? 1 
rss RP SERRE = 2 
D 2. 
k=1i k=1 


Nous en tirons la valeur m = x et 


Ainsi, la méthode des moments nous donne, en qualité d'estimation du para- 
mètre m de la distribution uniforme, la moyenne empirique. 


Nous exposerons encore une autre méthode pour la recherche des 
estimations des paramètres des distributions, la méthode du minimum 
du khi-deux, au paragraphe 8.3 en relation avec les problèmes d'esti- 
mation des lois de distribution. 

Les méthodes les plus générales pour la recherche et l'étude des 
estimations des variables aléatoires et de leurs caractéristiques statis- 
tiques sont développées dans une nouvelle branche en plein essor 
de la théorie des probabilités, la théorie des décisions statisti- 
ques [15]. 


$ 3. Estimation par récurrence de la racine 
de l’équation de régression 


3.1. Estimation par récurrence de l’espérance mathématique. 
Les méthodes que nous avons exposées pour rechercher lesestimations 
des paramètres inconnus dont dépendent les distributions des varia- 
bles aléatoires observées donnent la possibilité d'estimer les para- 
mètres inconnus uniquement après que l’on ait effectué toutes les 
épreuves. Or, dans de nombreux problèmes pratiques, on doit mener 
conjointement la réalisation des épreuves avec la solution de certains 
problèmes pratiques dont l'efficacité de la solution dépend notable- 
ment de la précision de l’approximation des paramètres inconnus. En 
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pareil cas, il est souhaitable d'effectuer l'estimation des paramètres 
inconnus après chaque épreuve de manière à augmenter l'efficacité de 
la solution des problèmes au cours de l’épreuve suivante. Tels sont par 
exemple les problèmes de précision du tir et les problèmes d'élimina- 
tion des erreurs systématiques dans les instruments de précision. Le 
problème de la précision du tir se ramène à déterminer l’écart du cen- 
tre de dispersion autour de la cible, c'est-à-dire de l'espérance mathé- 
matique de l'écart du point d'impact de la cible, à partir des résul- 
tats des mesures effectuées des écarts au cours du processus de tir, de 
manière à faire coïncider dans la mesure du possible le centre de 
dispersion avec la cible. Il est clair que, pour améliorer l'efficacité 
de chaque tir suivant, il est souhaitable de pouvoir apporter une 
correction après chaque tir et ne pas attendre que soient effectués 
tous les tirs prévus. Il devient ainsi nécessaire d'effectuer une esti- 
mation récurrente des paramètres inconnus consistant, après chaque 
épreuve, à déterminer la correction de l'estimation trouvée à partir 
des résultats des épreuves précédentes. 

> Nous allons expliciter l’idée principale de l'estimation par ré- 
currence sur l’exemple le plus simple de l'estimation de l'espérance 
mathématique d’une variable aléatoire. Pour cela, nous allons noter 
la moyenne empirique des valeurs de la variable aléatoire X, obtenue 


à partir des résultats de x épreuves, par un indice supérieur #7. Nous 
aurons alors la relation 


n ni 
x y = : D Xi+ EX, = 
k=1 


n n—î1 
h=1 


= XD LE (X, — Xo). 


Nous avons ainsi obtenu une formule récurrente simple pour les 
moyennes empiriques : 


Ke = Xo-0 + (x, — Xeon). d (32) 


Cette formule donne une règle simple pour trouver les corrections 
à l'estimation trouvée auparavant de l'espérance mathématique: 
après la première épreuve, on adopte en qualité d'estimation de l'espérance 
mathématique la première valeur observée X, de la variable aléatoire, 
X() = X,; après la seconde épreuve, on ajoute une correction égale 
à la moitié de l'écart X, — X(! et après la n-ième épreuve, on ajoute 
à l'estimation obtenue précédemment X(*-) une correction égale à un 
n-ième de l'écart X, — XU°-) (après le premier tir ou la première 
mesure, on introduit une correction égale à l’écart observé; après la 
seconde, une correction égale à la moitié de l'écart observé et, géné- 
ralement, après la n-ième, une correction égale à l’écart divisé par n). 
18—0244 
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Cette règle est appliquée depuis longtemps en artillerie et en mécani- 
que de précision. 

Il est évident que la formule de récurrence (32) est également appli- 
cable aux estimations de tous les moments des variables aléatoires 
scalaires et vectorielles, étant donné que l’estimation de tout moment 
simple ou centré par rapport à un point est la moyenne arithmétique 
de la puissance correspondante de la variable aléatoire (les produits 
des puissances des coordonnées du vecteur aléatoire). 

Le processus d'estimation récurrente pour lequel, après chaque 
épreuve, la correction ne dépend que du résultat de cette épreuve et 
de l'estimation précédente, est appelé approximation stochastique. 
Cette appellation s'explique par le fait que l’approximation des para- 
mètres inconnus est réalisée par une suite de variables aléatoires 


(dans notre exemple {X(*)}). La théorie générale des approximations 
stochastiques a été élaborée dans l’article de Robbins et Monro [92] 
et développée dans les travaux suivants de Kiefer et Wolfowitz [36], 
de Blum {5, 6] et dans de nombreux autres travaux, bien que, comme 
nous l’avons vu, la méthode des approximations stochastiques ait été 
connue et appliquée bien longtemps avant la création de la théorie 
générale. 

Pour formuler le problème général de l’estimation des paramètres 
par la méthode des approximations stochastiques, considérons le 
processus d'application de la formule (32) d'un autre point de vue. 
Introduisons une variable aléatoire Y — X — z pour un z arbitraire. 
Son espérance mathématique, pour une valeur donnée :. est égale 
à MIY |:] = MX — z = m, — 2, c'est-à-dire représente une fonc- 
tion de la variable z, la régression de la variable aléatoire Y sur z 
(point 4.3.2). Dans ce cas, la fonction 7 (:) — M [Y |z] n'est 
pas entièrement connue puisqu'elle dépend du paramètre inconnu 
m.. Le problème de l'estimation de m, se ramène alors à l'estima- 
tion de la racine de l'équation de régression 7 (z) = 0. Comme 
l'estimation X(” de l’espérance mathématique m. est consistante, 
la suite de variables aléatoires Z, — X(7), (nr — 1,2,...) converge 
en probabilité vers la racine m, de l'équation + (z) = 0. Dans ce 
cas, on observe, au cours de la n-ième épreuve, la variable 
aléatoire Y, — X, — Zn, (n = 1, 2,...), Z, = 0, après quoi on 
détermine la réalisation de la variable aléatoire 


Zn= Znui+— Yn: (33) 


Cette interprétation du problème considéré conduit à de larges 
généralisations. Dans le cas présent, la fonction de régression 1 (z) — 
= m, — zest linéaire et ne dépend que d’un seul paramètre inconnu 
m, (vectoriel dans le cas d’une variable vectorielle X). Dans le cas 
général, w# (z) = M [ Y | z] peut être une fonction inconnue en véri- 
fiant que des conditions les plus générales. I] s'avère que dans de tels 
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cas également, la méthode des approximations stochastiques permet 
d'estimer, à partir des résultats des observations successives de la 
variable Ÿ’, la racine de l'équation de régression 1 (z) = & pour tout 
« et pour la variable scalaire Ÿ également le point d'extrémum 1 (2). 

3.2. Processus des approximations stochastiques. Nous allons 
considérer le paramètre z, la variable aléatoire Ÿ et, par conséquent, 
la fonction 4 (z) — M [Y | z] dans le cas général comme des vecteurs 
a r dimensions. Supposons que l'équation 1 (z) — & possède une 
solution unique 6 et que, pour z, = 6,,q  p, la fonction w, (:,)— 
= (2) — 6) [Ÿn (2) — &,] de la variable z, conserve un signe constant 


dans un voisinage suffisamment grand V, du point 6, (p = 1,...,r). 
Introduisons la notation €, — — sgn w, (z,) et désignons par € la 
matrice diagonale dont les éléments diagonaux sont #;, ..., €,. 


Pour l'estimation de la racine 6 de l'équation Ÿ (2) = «&, considérons 
une variable arbitraire Z,, aléatoire ou non aléatoire (évidemment 
telle que la probabilité qu'elle appartienne au voisinage V, X . 

. X V, du point 6 soit suffisamment proche de 1), et construi- 
sons le processus des approximations stochastiques par la formule 


Zh — Zn-1 + An£n (TA — «), (34) 


où }, est le résultat de l'observation de la variable aléatoire Ÿ pour 
z = ZLh_, (n = 1, 2, ...), {a,} est une suite de nombres positifs 
vérifiant les conditions 


[s,] C0 
> Œn — ©, > an < O, (35) 
n=!i n=1 


et €, désigne la valeur de la matrice € pour z = Z,-,. En particulier, 
ces conditions sont vérifiées pour la suite {{1/n} à l’aide de laquelle on 
construit la suite (33) convergeant en probabilité (P.) vers l’espéran- 
ce mathématique inconnue. La signification des conditions (35) est 
Ja suivante : la première condition, la divergence de la série de terme 
général a, >> 0, assure que Z, puisse s'approcher indéfiniment de Bet 
évite que le processus d’approximations ne s'arrête avant d'atteindre 
le point 0; la seconde condition, la convergence de la série de terme 
général af, assure que la suite des variances DZ, soit limitée et évite 
que le processus ne s’écarte indéfiniment du point 6. La matrice diago- 
nale e dont les éléments sont égaux à 1 a été introduite dans (34) pour 
assurer en moyenne l'’approximation vers 6. En guise d'illustration, 
considérons le cas d’un paramètre scalaire 6. Nous trouvons à partir 


de (34) 
M [Zn | Zn-1] — Zn-1 = ane Fp (Zn-1) — al = 
= — dr [p (Zn-1) — a] Sgn © (Zn-1): 


où &@ (z) = (z — 6) Ip (z) — a]. Cela montre que le signe de la diffé- 
rence M [Z, | Zn-1l — Zn-1 est toujours contraire au signe de l'écart 


18% 
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Zn-1 — 9, ce qui assure en moyenne un pas à partir de Z,-, en direc- 
tion de 6. 

3.3. Convergence du processus des approximations stochastiques. 
Pour étudier la convergence en probabilité (P.) de la suite des varia- 
bles aléatoires {Z,}, appliquons la méthode des fonctions de Liapou- 
nov, bien connue en théorie de la stabilité [46, 53]. Cette méthode 
permet, dans chaque cas concret, d'établir des conditions suffisantes 
de convergence ou de stabilité d'un processus quelconque. La méthode 
des fonctions de Liapounov est basée sur le simple fait suivant. Si la 
fonction continue v (z) est partout positive, sauf au point z = 6, où 
elle est nulle, et si l'accroissement de cette fonction à chaque pas (la 
dérivée par rapport au temps dans le cas d'un processus continu) 
est négatif en vertu des équations régissant le processus (dans notre cas, 
en vertu de (34)), alors le processus converge toujours vers le point 6 
et ne peut s'arrêter avant d'atteindre le point 68. La fonction v (2) 
est appelée fonction de Liapounov. Si le processus de rapprochement 
est élaboré à l’aide des variables aléatoires, alors, au lieu d’un ac- 
croissement (d'une dérivée) négatif, c’est l'espérance mathématique 
conditionnelle de l'accroissement (de la dérivée) qui doit être néga- 
tive. 

Pour la convergence en probabilité (P.) du processus des approxima- 
tions stochastiques (34) vers la racine de l'équation de régression 1 (2) = «& 
dans le cas des variables indépendantes Y, — 1% (Z,-) la condition 
suffisante est l'existence d'une fonction de Liapounov v (z) vérifiant les 
condilions suivantes : 

1) v (z) esf continue avec ses dérivées premières et secondes; 

2) v (8) = O, inf uU(z) > ô(e) 0 pour tout e >0; 


|:-01> 
3) un u (2) < — Ô, (€) << 0 pour tout e > 0, où 
2-0|>e 
T 
u (2) = À e ji (2) — a; (86) 
4) w(z, À) = 


= M {(YT— aT) E— D v(2+A(Y— a) e(Y —a)|z] D < © 
(37) 


pour tout z, À (théorème de Blum) *). 


*) Blum a démontré que ces conditions étaient suffisantes pour la conver- 
gence de la suite {Z,} presque sûre (p.s.) (5, 6, 13]. Nous nous bornerons ici à 
démontrer que ce sont des conditions suffisantes pour la convergence en proba- 
bilité P.). La fonction u (:) représente évidemment l'espérance mathématique 
conditionnelle de la différentielle, c’est-à-dire de la partie principale de l'ac- 
croissement de la fonction v(:), en vertu des équations régissant le processus (34) 
pour une valeur donnée . | 


SE) ESTIMATION DE LA RACINE 277 


> Considérons la suite des variables aléatoires scalaires {v (Z,)}. 
En utilisant la formule de Taylor, nous trouvons l'expression 


€ (Yu a a) % 


Ti 
D (Zn) = 0 (Zn) + an En) 


e T 
+ _ (Ya — a”) E _ _ V (Zn-17 Onan (Yn—- a)) E (Yn—a@), (38) 


où 6, € (0, 1). En appliquant la formule de l'espérance mathématique 
totale (4.34) et en prenant en considération le fait que l'espérance 
mathématique conditionnelle de la variable Ÿ, par rapport à Z,: 
est égale à % (2,1), M [Y, | Zn-1l = %Ÿ (Zh-1), nous obtenons, en te- 
nant compte de (36) et (37), 


9Tv(Zn-1) 
0 


T 
Mn) 8 (Y, —a)-= M 


me eM(Y—alZn-1 ]= 


T 
= M EE 6 (4 (Zn) —a1= Mu (Zn), (89) 


T 
M (YF —a7) 2 Do (Zn + Buan (Ya — 0) e (Yu —a) = 
= Mw(Z,-1, 8,a,) << D. (40) 


Nous avons alors, en vertu de (38), (39) et (40), l'égalité 


2 
Mv(Zr)=Mv (Zn) +aMu(Zn-s) +-2-Mu (Zn nan) = 


= Mv(Zn-1) —Gnbn + ênr (41) 


OÙ En = —Mu(Z,_1), n, =Mw(Z, 1, 0,a,). En appliquant succes- 
sivement la formule (41), nous trouvons 


Mo (25)=Mv (Ze) — D abi+e D ci. 


k=1 k=1 


Il en découle que 


: 4 D à 
D aër = Mu (Zo)—Mv(Zn)+ 5 D ain < Mv(Z) ++ D} ai. 
k=1 k=1 k=1 

En vertu de la condition 3), nous avons E,; = — Mu (Z,_;) = 


= M |u(Z,_,) [> 0. Il en découle, compte tenu de la deuxième 
condition de (35), que la série des nombres non négatifs à a,Ex con- 


verge. Mais comme la série > az diverge en vertu de la première con- 
dition (35), nous avons lim E, = 0. Il en découle l'existence d'une 
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sous-suite {E, p} convergeant vers Ü: 
En p = M u(Zn 4) | —+ 0. 


Or, en vertu de l'inégalité de Tchébychev (6.1), nous avons 


Zn p) 
P(u (Zn) 1>e) < rl 
I] en découle par conséquent que P(|u (Zn p) [> e)— 0 quand 
p—> ©, autrement dit, la sous-suite {u (Zn p)} converge en probabi- 


lité (P.) vers 0. Il en découle alors, compte tenu de la condition 3), 
la convergence en probabilité (P.) de la sous-suite {Z,,} vers 6. 


En effet, si la sous-suite {Z,_} ne converge pas en probabilité (P.) 
vers 6, alors il existe des e, € 0 tels que P (| Zn, — 01>e) —œÈ 
pour tous les n,. Or, il découle de la condition 3) que 


P(IZn,—01>e)<P(Iu(Z,) | > 8: (e). 


Ainsi, P (|u (Z,) | > 61 (e)) 6 pour tous les n,, ce qui est impos- 
sible, du fait de la convergence en probabilité (P.) de la sous-suite 
{u (Z:,)} vers 0. 

Il reste à démontrer que la suite {Z,} tout entière converge en 
probabilité (P.) vers 6. Remarquons pour cela qu’en vertu de la 
continuité de la fonction v (z) et de la condition 2), la sous-suite 
{© (Zn,)} converge en probabilité (P.) vers 0. D'autre part, il découle 
de (38) que pour tous n#, et ñn > n, nous avons 


DZ) =v(Zn)+ D a Bi 6 (Vi a)+ 
ken, +1 


T 
Hz D (Tia) vu (Zi Ouen (Ya a))e (Ya—o). 
En, +1 
P 
Nous en tirons, en prenant en considération le fait qu’en vertu de la 
condition 3) on peut affirmer avec une probabilité 1 que l’on a les 
inégalités 


8Tv(Zn,) Tv (Zn}) 

M [Ce ë Fapti—@)Zn, |= — — + e [Ÿ (Znp) — à] < 0 
dTv (Zr- 

MT 8 (Fa—o) | Zn] = 


Tv (ZR-1) 
= MR 6 1 (Zu) — al 1 22,1 € 0, 


8 3] ESTIMATION DE LA RACINE 279 


et en tenant compte de la condition 4), la relation 
D n 
MZ) Zn v(Znp+ Tr D di 
ken +1 


Il découle de cette inégalité et de la seconde condition (35) que 
pour tout Ô >0ona 


M Le (Zn) 1 Zn) € 0 Zn) + 8 


pour toutes les valeurs suffisamment grandes de n, et n > n,. Nous 
en tirons alors, en utilisant l'inégalité de Tchébychev (6.1), pour 
tout £ >> 0 la relation 


P(v(Z1>Eelv(Zr,) <ô) <+ 


et, par conséquent, 
P(u(Zr)> €} N {(Zn,) < 8} = 


=P(L(Zn,) <6) P(v(Z1) > € 1 0 (Zn,) <E <<. 


Définissons maintenant un & >> 0 arbitrairement petit et choisissons 


ô << eë/4. Nous aurons alors pour tous les n, et nr > n, suffisamment 
grands 


P({u(Zr)> €} N {0 (Zn,) < 5) < +. (42 


Nous obtenons ensuite, en vertu de la convergence en probabilité (P.) 
vers 0 de la sous-suite {v (Z,.)} 


P ({u(Z) > €} N (Zn) > << PL(A) >< (43) 


pour tous les nr, suffisamment grands. Nous obtenons de (42) et (43) 
la relation 


P(o(Z)>E)= P({o (Zn) >} N {v (Zn,) < 6} + 
+P((Z)>e} N (Zn) >) <++S=t. 


Cela démontre la convergence en probabilité (P.) vers O de toute la 
suite {v (Z,)}. Il en découle, en vertu de la continuité de v (z) et de 
la condition 2), la convergence en probabilité vers 0 de toute la suite 
{Z,}, ce qui termine la démonstration. 

Dans une application pratique du théorème que nous venons de 
démontrer, le plus difficile est, de même que dans une étude de stabi- 
lité, la recherche de la fonction de Liapounov v (2). 

Quand z, Ÿ et 4 (z) sont scalaires, la fonction de Liapounov peut 
être donnée par l'expression v (z) = (z — 6)*. Cette fonction vérifie 
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la première des deux conditions du théorème démontré. Nous avons 
de plus 
u (z) = 


PE e ff (2) — a] = 2 (2— 6) [1 (2) — al e = 


— 20 (z)e— — 20 (:) sgn wo (2) = —2|w(z)|. 
C’est pourquoi la condition 3) est vérifiée si pour tout e > 0 il existe 
un Ô, (£) > 0 tel que 
inf 00) | > Ôi (€). 
[> 


|: — 
Enfin, nous avons, compte tenu du fait que v” (z) = 2, la relation 
w (2, À) = 2M [(Y — a}° | 21 = 2 {[ (2) — al + D [Y |zl}, 


où D [Y |zlest la variance de la variable Ÿ pour une valeur donnée 
de z. C’est pourquoi la condition 4) est vérifiée si la variance de la 
variable aléatoire observée Ÿ est bornée supérieurement par un même 
nombre D pour tous les z et la fonction + (2) est bornée sur tout in- 
tervalle fini. Dans ces conditions, il découle du théorème démontré 
le théorème principal de Robbins et Monro qu'ils ont démontré 
dans l’article ayant constitué la première pierre du développement 
de la théorie générale des approximations stochastiques [92]. 


$ 4. Estimation par récurrence du point d’extrémum 
de la régression 


4.1. Processus des approximations stochastiques. Passons main- 
tenant au cas de l'estimation du point d’extrémum de la fonction de 
régression scalaire 1 (z). Supposons que la fonction ‘4 (z) soit con- 
tinue avec ses premières dérivées 1, (z) — db (2)/0z, (p = 1, ...,r) 
et admette un extrémum unique (un minimum) au point z = 6 *). 
Dans ce cas, il est naturel de s’efforcer de se déplacer à partir de 
chaque point z suivant la direction négative du vecteur du gradient, 
c'est-à-dire d'appliquer la méthode de la descente la plus rapide [102]. 
Quand la fonction 1 (2) est inconnue, il est naturel d'adopter en qua- 
lité d'estimation de la dérivée 1, (z) au point Z,., la quantité 
Up = (Ynp — Yno)/Cns OÙ no est le résultat de l'observation de 
la variable aléatoire Ÿ pour z — Z,.,, et Ÿ,, est le résultat de l’ob- 
servation de la variable Ÿ pour z — Z,_1 + che», où e, désigne le 
vecteur unité de l’axe z,, et c, est un certain nombre. Nous pouvons 
alors, en choisissant une variable Z, aléatoire ou non aléatoire et en 
définissant une suite de variables aléatoires 


Zn — Zn-1 — an, (44) 


*) Le cas du maximum se ramène au cas du minimum en modifiant le 
signe de la fonction +4 (2) et de la variable aléatoire Y. 
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où U, désigne le vecteur de coordonnées U,, = (Y y» — Yho)/Cn, 
considérer que le processus des approximations stochastiques con- 
verge en probabilité (P.) vers le point de minimum 6 de la fonction 
p (2). 

4.2. Convergence du processus des approximations stochastiques. 
Démontrons maintenant que pour la convergence en probabilité (P.) 
de la suite (44) vers le point de minimum 0 de la fonction 1 (z), il suffit 
que les nombres positifs a, et c, et la fonction 1 (z) vérifient les condi- 
lions suivantes 


ie n=! , : (45) 
limc,=0, D'anc,<o, Ÿ (=) <o, 
Der n=! n=1 # 
Yo < 8p 2) = — << Yi (p=1, ….) r), (46) 


où Yo et Y. sont certains nombres positifs et que la variance de la varia- 
ble aléatoire observée Y soit pour tout z bornée inférieurement par le 
même nombre D, D [Y | zl-< D (théorème généralisé de Kiefer et 
Wolfowitz [36] *). 

> Il découle de (44) que 


[Zn —0 = 1Zn 1 — 0 | — 2a, (27, — 07) U, + aÿ | Un F°. (47) 


Calculons l'espérance mathématique conditionnelle du second terme 
par rapport à Z,_,. Pour cela, trouvons d'abord M [U, | Z,_l. 
Nous obtenons alors de la définition du vecteur U,, en appliquant 
la formule des accroissements finis de Lagrange et en tenant compte 
du fait qu'en vertu de (46) w, (z) = (z — 8) g, (2), l'expression 


M [Up | 2:23 _ M [Ynp En ie [ Yno | Zn-1] — 


— Ÿ Ent tenep)E (Zn-1) — ŸD VAE On pCnep) = 


= (Zn, p+ VnpCn — 0;) Ep (Zn-1 + ÙnpCnep) (48) 
où Php E (0, 1). Nous avons par conséquent 


(Zn=1, p— 0») M [Uhp | Zn-1) 7 (Zn-1. p—0»)?£p (Zn-1 "1 ÜnpCnep) + 
+ ÜnpCn (Zn-1, P— 6,) Ep (Zn: + dhpCnep) (49) 


*) Kiefer et Wolfowitz ont démontré ce théorème pour une variable scalai- 
re :. La généralisation au cas de z vectoriel pour des conditions quelque peu 
différentes a été donnée par Blum [6] qui a établi la convergence presque sü- 
re (p.s.). 
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Nous en tirons, compte tenu de (46), l'inégalité 
—(Zh-1,p — 6,) M [Up | Zn-1] << 

< —Ÿo (Zn-1,p . 0, Sa ViCn | Zn-1,p — 6; |. 
En sommant sur p et en prenant en considération le fait que 


s 
À (Zn-1. p—0p) M [Unp | Zn) = (Zn-1 —0") (M [U,1Zn-1l, 


DlZnan 0 KM 7 D Ga r—0=Vr I Zna—0 1*), 


nous obtenons l'inégalité 


—(Zn-1 87) M Un 1Zn-1] <—Vo 1271 — 0124 VrenlZnu— 81. 
(50) 
Outre cette estimation, nous avons également besoin d’une estima- 
tion plus grossière pour notre étude préliminaire. Pour obtenir cette 
estimation, remarquons qu’en vertu de (46) et (49), la quantité 
—(Zh-1p — 0p) M [Uhp | Zn-1l ne peut être positive que pour des 
valeurs négatives suffisamment petites de Z,,_1 — 6), précisément 


pour O0 > Zip — 0h > —VypCn > —Cn. Il en découle, compte 
tenu de (49), que 


— (Zip — 0») M (Up | Zn-1l < Yan | Zn-1,p — Op |  Yicé- 

En sommant sur r, nous obtenons l'inégalité 
—(Z5-1 — 07) M (Un | Zn-1l < ryicé. (91) 

Utilisons, pour l'estimation de l'espérance mathématique con- 
ditionnelle du dernier terme de (47) par rapport à Z,-,, la formu- 
le (3.29) exprimant le moment simple du second ordre en fonction 
de l'espérance mathématique et de la variance d’une variable aléa- 
toire. Nous obtenons, à l'appui de cette formule, en appliquant (48) 
et (46), la relation 


M [Up | Zn-1) — (A [Up | Ln-1))" + D [U »p | Zn-1] < 
<Y:; (Zn-1, p + Ünp£n — 6,)° + D [Up |[Zn-1] _. 
< 2y [(Zn=1, p—0p)?+ ch] + D [Up | Zn-1]. 


*) Nous avons utilisé ici l'inégalité 


(> sr D 2h 
p=i p=1 


valable pour tout r et tous nombres réels z1, ..., r,.. Pour le démontrer, il 
suffit de trouver le maximum de la somme Zu} sous la contrainte Euÿ = 1et 


de montrer qu'il est égal à Vr. 
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Or, il découle des conditions du théorème que 
DUnnlZn41=7 DV ap— Yo | Zn-1 & 
Dr 12 + Do! Zn-1l + 
> Dar | Zn-1] DV no 1Zn-1]}= 
= LV Dar Zni + VDProlZr aile < #2 

Par conséquent, nous avons 

M [UnplZn-1) <2Yi (Zn-1, p — 0p j+ 2yicr + 27 
Nous obtenons alors, en sommant sur p, Tr 


M Un 12 1Zn-1) < 292 IZnu—012+2rvicr+ LD. (62) 


Nous pouvons maintenant démontrer la convergence en moyenne 
quadratique de la suite {Z,} vers 8. Démontrons tout d’abord pour 
cela le fait que la suite des nombres positifs 6, = M |Z, — 8 |* 
est bornée. Il découle de (47) que 


Ôn = Ôn-1 — 2anM (ZT, — 07) U, + aÿM | U, | = 
= 0,1 — 2a,M [(ZT_, — 07) M [U, | Z,-1l] + 
+ aiMIMI U, F|Zn-1ll. (93) 
Nous en tirons, en utilisant les inégalités (51) et (52), l’expression 
On <ôn-1 + 27 YianCn + 2Y Ian On + 2rviancr 


+4rD (EE) = 6 (1+2viai)+un, (54) 


pr = 2ryiancé + 2ryiañci+ 4rD (2). 


En appliquant l'inégalité (54) successivement, nous aurons 


n 


n ni 
ôn < 00 [] (+ 2vieh)+ Zu Î] U+2viat) +. (65) 


Il découle de (45) que la série Zu, et le produit infini IT (1 + 2y°ai) 
convergent *). Ainsi, tous les produits dans (55) forment des suites 


*) Etant donné que In [T (A+ 2x) = > In ({+z)= Ÿ NN. zxB(zx), où 
B(rn)=1—18/2(14 Ar zx), AR E (0, 1),et B(rx) —> 1 quand Th — (, alors 
le produit infini [] (1+ rx) converge si et seulement si la série 
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non décroissantes, bornées supérieurement par un même nombre, le 
produit infini [1 (1 + 2yfa;). Il en découle, en vertu de la conver- 
gence de la série > p,, que la suite {6,} est bornée, c'est-à-dire qu'il 
existe un nombre b tel que 


Ôn << b* pour tout n. 


Or, comme pour toute variable aléatoire vectorielle V nous avons, 
en vertu de l'inégalité (3.45), la relation M|V|=M(-]V |) < 

£<VMIVÉ, alors MIZ, —80[<VMIZ, — 6 À = V6, < b. 
En utilisant cette inégalité et l’inégalité (50), (52), nous obtenons 
de (53) la relation 


ôn << ôn-1 — 2Yoan0n1 + Vi V rancn + 2y°b?a; + 
+ 2ryiañcr + 4rD (2) = Ôn-s (1— 2Yo8n) + Vn, (56) 
+ à 
En es (56) successivement, nous aurons 
n— 1 


6n <ôn0, I, A—2va)+ E v, [] (4— 208) + va, (57) 


=ng+i t—=s 


= vb Vra,c, + 2vb2ai + 2ryiañcn + 4rD (= 


où 7, est un nombre arbitraire pour lequel 2y,ay << 1 pour tous les 


k > no. Il découle de (45) que la série à v, converge et que le produit 
JT (1 — 2yoax) diverge vers 0 *). Par conséquent, le second membre 
de (57) tend vers O0 quand nr — o. Cela démontre précisément la 
convergence de la suite {6,} vers 0, c’est-à-dire la convergence en 
m.q. de la suite des variables aléatoires {Z,} vers 6. Enfin, il découle 
de la convergence en m.q. de {Z,} vers 8 la convergence en proba- 
bilité (P.), ce qui démontre le théorème. 4 

4.3. Méthode de la recherche aléatoire. Nous voyons que pour 
l'estimation de l'extrémum de la fonction 7 (z) du vecteur z à r 


D zx converge. Si >» rx =, alors le produit infini [I (4<+ r2)est appelé 
divergeant vers l'infini, car, dans ce cas, 


lim Il (1+rr) = 00 


n 0 h=— 1 
Si >» zh = — ©, alors le produit [[A+z%) est dit divergeant vers 0, car, 
dans ce cas, nous avons 


lim l (A+ zx) = 0. 


ne h={ 
*) Voir la remarque de la page précédente en tenant compte du fait que 
—2%0 D Sn 
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dimensions, il faut observer en chaque point Z,-, la variable aléa- 
toire Ÿ (r + 1) fois, pour z — Z,_,, Zn-1 + Cnes, - . ., Zn-1 + Cnes. 
Quand r = 1, la variable Ÿ doit être observée deux fois. On peut 
toutefois, au lieu de l’observer pour z = Z,_, et z= 2, +c,, 
l'observer pour 2 = Z,_, +c, et 3 = Z,_, — c, et adopter, en 
qualité d'estimation de la dérivée de la fonction 1 (z) au point Z,_;, 
le rapport de la différence des valeurs obtenues de Ÿ à 2c,. C’est 
précisément ce cas qui a été étudié au départ par Kiefer et Wolfo- 
witz dans [36]. 

Quand la dimension r du vecteur z est élevée, l’application de la 
méthode des approximations stochastiques pour la recherche de 
l'extrémum de la fonction  (z) s'avère très laborieuse du fait de la 
nécessité d'effectuer r + 1 observations de la variable Y en chaque 
point. Dans de tels cas, il est plus avantageux, souvent, d'utiliser 
la méthode de la recherche aléatoire. 

La méthode de la recherche aléatoire est basée sur le fait qu’à 
partir de chaque point Z,-, on fait un pas représentant un vecteur 
aléatoire V,. Au nouveau point obtenu Z, = Z,-, + V,, on effec- 
tue une observation de la variable aléatoire Y. Conformément au 
résultat de cette observation de Ÿ,, on définit la distribution du cas 
suivant V,4,. Si ŸY, << Ÿ,-1, alors la distribution du pas V,+, est 
choisie de telle sorte que la probabilité du pas V,+4, proche en di- 
rection de V, (autrement dit, la probabilité d'effectuer le pas suivant 
dans une direction proche de celle pour laquelle le pas était un succès) 
soit suffisamment grande. Quand Ÿ, > Ÿ,-1, la distribution du 
pas V,:, est choisie de telle sorte que la probabilité du pas V,+;, 
proche en direction de V, (autrement dit, la probabilité d'effectuer 
le pas suivant dans une direction proche de celle pour laquelle ce 
pas était un non-succès), soit faible. Pour le reste, les distributions 
des pas d'essais peuvent être, dans une certaine mesure, arbitraires. 
Quand ces distributions sont choisies de façon adéquate, la méthode 
de la recherche aléatoire peut s'avérer bien plus avantageuse par 
rapport à la méthode des approximations stochastiques dans le cas 
où la dimension r du vecteur z est élevée. 

Comme la distribution de chaque pas est élaborée en tenant com- 
pte des pas précédents, l’algorithme de la recherche aléatoire est 
en réalité un algorithme d'apprentissage. Ce genre d’algorithme 
accumule l'expérience passée en apprenant à tirer parti de ses succès 
et de ses insuccès *). 


*) Le lecteur peut trouver un exposé plus détaillé de la méthode des appro- 
ximations stochastiques et de ses applications dans [13, 102]. Des applications 
de la méthode des approximations stochastiques à différents problèmes de ges- 
tion sont données dans [47. 106, 121, 122]. Le lecteur intéressé par la méthode de 
la recherche aléatoire et de ses multiples applications tirera profit de l’ouvrage 
de L. Rastriguine [87] qui a fortement contribué à l'élaboration de la méthode 
de la recherche aléatoire. 


CHAPITRE 8 


ESTIMATION DES DISTRIBUTIONS 


$ 1. Estimations de la densité de probabilité 
et de la fonction de répartition 


1.1. Estimation paramétrique et non paramétrique des distribu- 
tions. Les méthodes d'estimation des caractéristiques numériques 
des variables aléatoires et des paramètres de distribution exposées 
aux chapitres 6 et 7 permettent de trouver (d'estimer), à partir des 
résultats des épreuves, les distributions des variables aléatoires, 
représentant des fonctions connues dépendant d'un nombre fini de 
paramètres scalaires inconnus (c’est-à-dire d’un paramètre inconnu de 
dimension finie). Ce genre d'estimation des distributions inconnues 
est appelé paramétrique. L'’estimation directe des distributions ne 
reposant pas sur l'hypothèse qu'elles sont des fonctions connues à 
un paramètre à dimension finie près, est appelée non paramétrique. 
Nous exposerons maintenant les principales méthodes de l’estima- 
tion non paramétrique des distributions des variables aléa- 
toires. 

1.2. Estimation de la densité de probabilité d’après l’histogramme. 
I1 découle de notre approche de la définition de la densité de proba- 
bilité, donnée au point 2.2.1, qu’une estimation convenable de la 
densité de probabilité d’une variable aléatoire peut être la densité 
relative des points expérimentaux. Dans ce cas, plus le nombre d'é- 
preuves est grand, plus les intervalles de partitionnement du do- 
maine des valeurs possibles de la variable aléatoire peuvent être 
fins et, par conséquent, plus l'histogramme peut donner une meil- 
leure approximation de la densité de probabilité. Il est recommandé, 
en pratique, de choisir les intervalles de telle sorte que, dans chacun 
d’entre eux, il y ait au moins 10 points expérimentaux *). 

Soit f (x) la densité de probabilité inconnue de la variable aléa- 
toire À. Supposons que le domaine des valeurs possibles de la va- 
riable À soit partagé en r intervalles (dans le cas d’une variable vec- 
torielle X, des intervalles multidimensionnels, des rectangles) 


*) Pour construire l’histogramme sur ordinateur, on pere dans [94] 
les programmes HIST, TAB1 (histogramme unidimensionnel) et TAB2 (histo- 
gramme bidimensionnel). 


$ 1] ESTIMATIONS DE LA DENSITÉ DE PROBABILITÉ 287 


Ax;, ..., Az, *). Soient Z,, . .., Z, les nombres aléatoires d'ap- 
partenance de la variable Y ux intervalles Azx,, . .., Az, au cours 
de nr épreuves, Z;, + ...+ Z, = n. Alors, les fréquences d’appar- 


tenance à ces intervalles seront À, = Z,/n (v = 1,...,7). Les 
probabilités d'appartenance à ces intervalles sont définies par la 
formule 


D = | f(Ddr (v=i, .…,r). 


Ax,, 
Si l’on adopte les fréquences P,, ie, P, en qualité d'estimation 
des probabilités p,, . .., p,, alors les valeurs de la densité relative 


des points expérimentaux F, —_ P./Az, dans les intervalles corres- 
pondants Az, (v = 1, ..., r) seront les estimations des quantilés 


== = | fade (v=1, ..., r)"#). 


Ax,, 


Si f (x) est continue dans chaque intervalle Ax,, alors ces quantités 
représenteront les valeurs de f (x) en certains points moyens des in- 
tervalles correspondants. Ainsi, les valeurs des densités relatives des 
points expérimentaux (les ordonnées de l’histogramme) représentent 
des estimations de la densité de probabilité en certains points moyens 
inconnus des intervalles correspondants. 

1.3. Domaines de confiance pour la densité de probabilité. Utili- 
sons, pour trouver le domaine de confiance du vecteur f = [f, . .. f,IT 
dans l’espace à r dimensions, la troisième méthode du point 6.2.4. 
Pour trouver la fonction correspondante œ, nous effectuerons l’esti- 


mation de l’écart du vecteur des fréquences P — [P, ... BAT 
au vecteur des probabilités p = [p, ... p,ÏT à l’aide de la somme 
pondérée des carrés des erreurs 


r 
> Cv (P, — p,}?, 

Væi 

OÙ Cy» «+ - -, CP Sont certains nombres positifs. Il est rationnel de 
choisir ces nombres de telle sorte que les probabilités les plus fai- 
bles soient estimées avec des erreurs absolues plus faibles. En d’au- 
tres termes, les erreurs d'estimation de faibles probabilités p, doi- 


*) Si Je domaine des valeurs possibles de la variable X est l’espace tout 
entier, alors certains des intervalles Azr,, ..., Ar, peuvent être infinis. Lors 
de l'estimation de la densité de probabilité, tous les intervalles contenant des 
points expérimentaux sont choisis finis et ce n'est que les intervalles ne con- 
tenant pas de points expérimentaux qui peuvent être infinis. 

**) Pour simplifier, nous noterons Ar, non seulement l'intervalle, mais 
aussi sa longueur (son volume dans le cas d’un vecteur X). 
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vent posséder des poids élevés c,. K. Pearson a montré que si l'on 
prenait c, = n/p,(v = 1,...,r), alors à la limite, quand le 
nombre d'épreuves x croît indéfiniment, la distribution de la quan- 
tité 


r  - . 
H=n) (Ps p4)° (1 


\=i 


tend vers la distribution du y* à r — 1 degrés de liberté [72, 73] 
{exemple 5.48). Comme cette distribution ne dépend pas des para- 
mètres inconnus pP,,..., P, alors la quantité (1), usuellement ap- 


pelée 4°, peut être adoptée en qualité de fonction (P, p) du point 
6.2.4. Nous obtenons alors un domaine de confiance pour le vecteur 
p = [p,1...p,1T défini par les relations 


r 


> (Ps — Py< <= ; ÿ Pv=Î, (2) 


v={ v=i 


où €, est défini à partir du niveau de confiance & donné de l'’équa- 
tion 


P(p(P, p<e)=P(H<e)=/|pi(man=a (3) 
0 


En pratique, on détermine la valeur €, à partir des valeurs concrètes 
de À — r — 1 et de & à l’aide de la table 5. Dans ce cas, on doit tenir 
compte également des intervalles infinis Azx, tels que les fréquences 
de leur appartenance soient nulles. 

Pour trouver le domaine de confiance du vecteur des densités 
moyennes f —= [f,.../f,IT, il convient d'abord de remplacer les 
intervalles infinis Az, par des intervalles finis suffisamment grands, 
de sorte que la probabilité que À n’appartienne pas à l’un des inter- 
valles Ax,, ..., Ax, soit négligeable. Dans ce cas, pour une esti- 
mation par intervalle plus précise des densités moyennes dans les 
intervalles infinis associés à des fréquences nulles d'appartenance, on 
peut les partager en plusieurs petits intervalles (avec des fréquences 
nulles). Dans ce cas. le domaine de confiance pour f sera déterminé 
par les relations 


Fr 


1 F \2 
» 7 (y F) Az <<, 


\=i 


D Av dl (4) 


vai 
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Exemple 1. Les valeurs de la variable aléatoire X obtenues au cours 
de 100 épreuves sont distribuées sur 10 intervalles de longueur 80 unités chacun, 
comme Je montre le tableau. 


Zy sus] 265] 485 | —25 | 55 | 135 


fs-101 | 2,5 | 7,5 | 10.0 


On a donné, dans la troisième ane du tableau, les points médians des interval- 
les et, dans la quatrième ligne, les densités relatives des points expérimentaux. 
Trouver l'estimation de la densité de probabilité et son domaine de confiance 
correspondant au niveau de confiance & — 0,95. 


200 400 


Fig. 32 


Dans ce cas, l’histogramme est donné sur la fig. 32. Pour trouver le domaine 
de confiance, remarquons que, dans ce cas, en considérant deux intervalles infi- 
nis (—0co, —385) et (415, œ), nous avons r — 12, Az, = ... — Azx;o — 80. 
En remplaçant les intervalles infinis par des intervalles approchés finis 
(—545, —385) et (415, 575), nous aurons Ars, = Arye — 160. Dans la table 5, 
nous trouvons, pour k# = r == 1 — 11 et æ& — 0,95 Ya valeur e, — 19,68. Le 


19—0244 
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domaine de confiance obtenu à partir du résultat des épreuves pour jf — 
= [f1 ... f12]T est déterminé par les relations 


(fa 2,5 A0 (fe —7,5.40-02+Ù (fa —10,0.10-07+ 
Ji Î2 fs 


+ (fa 20,0-10-0)8+ 7 (fs 2348-4078 (fe—24,2- 407878 
4 5 6 


es (f:— 17,5.10-4)2+ 1 (fa — 10,0.40-42+ (fo — 8,8-1074)° + 
Î: Îe Îo 


+—— (10 —3,7-40-4)2 + 9f11 + 2f1e € 0,00246, 
ha aa Îe + “He + 2f11 + 2fje — 0,0125. 


11 n’est pas possible, évidemment, de représenter concrètement ce domaine à 11 
dimensions dans l’espace à 12 dimensions. Pour obtenir une représentation 
concrète du domaine de confiance, nous rechercherons les intervalles de confiance 
conjoints pour toutes les variables f,, ..., f,. Correspondant à un niveau de 
confiance non inférieur à &« = 0,95. Il faut pour cela trouver les intervalles de 
confiance pour chacune des variables f;, ..., f.: correspondant au niveau de 
confiance &;, = 1 — (1 — &)/12 = 1 — 0,05/12 & 0,9959 (point 6.2.4). Comme 
dans notre cas le nombre d'épreuves est suffisamment grand pour que la distri- 
bution des fréquences puisse être considérée normale, nous appliquerons la 
formule (6.11). Pour cela, nous trouvons, dans la table 1 (pour & = 0,9959), 
la valeur e, — 2,86. En portant cette valeur et la valeur des fréquences dans 
(6.11), nous trouvons les intervalles de confiance conjoints pour f;, . .., fin. 
Les limites de ces intervalles (a,, b,) (v = 1, . .., 12) sont présentées dans Îe 
tableau suivant. 


On a représenté sur la fig. 32 le domaine de confiance pour la courbe de 
distribution, formé par ces intervalles de confiance. Conformément à ce que 
nous avons exposé au point 6.2.4, ce domaine de confiance contient une courbe 
de distribution inconnue avec une probabilité non inférieure à 0,95. On voit 
sur la fig. 32 que les points expérimentaux obtenus peuvent correspondre à une 
grande diversité de courbes de distribution. Sur la fig. 32, la courbe en trait 
plein représente la courbe de distribution choisie pour ces points expérimentaux 
dans l'exemple 5, et la courbe en trait discontinu la courbe normale de distri- 


bution. 


La méthode que nous avons exposée de détermination des do- 
maines de confiance pour la densité de probabilité ne peut être uti- 
lisée que dans le cas où le nombre d'épreuves nr est suffisamment grand 
pour que la distribution de la variable H diffère peu de la distribution 
du +. En pratique, on peut utiliser cette méthode quand n > 100. 
Cette condition est habituellement toujours satisfaite, étant donné 
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que l’on ne peut obtenir de bonnes estimations de la distribution 
d’une variable aléatoire qu'à partir des résultats d’un grand nombre 
d'épreuves, de l’ordre de quelques centaines pour une variable sca- 
laire et de quelques milliers pour une variable vectorielle. S'il est 
indispensable d’estimer une densité de probabilité à l’aide d’un nom- 
bre peu élevé d'épreuves, alors, pour trouver le domaine de confian- 
ce, on doit utiliser la distribution polynomiale exacte des fréquences 


P., ..., P, et la seconde méthode du point 6.2.4, comme nous l’a- 
vions fait pour l'estimation des probabilités dans le point 6.3.2. 

1.4. Estimation de la fonction de répartition. Pour obtenir une 
estimation de la fonction de répartition F (x), il est naturel de rem- 
placer dans sa définition (2.29) les probabilités des événements 
X << x par leurs fréquences. Soit M (x) le nombre aléatoire des 
valeurs expérimentales de la variable aléatoire À au cours de n 
épreuves vérifiant l'inégalité X,<<zx. La fonction de répartition de la 
variable X est alors déterminée par la formule 


Ê (2) = M (x)/n. 


En utilisant la fonction échelon de Heaviside, on peut représenter 
cette formule sous la forme *) 


F(@= <> 1@—2X). (5) 
R=1 


1.5. Domaines de confiance pour la fonction de répartition. 
Le problème de la recherche d’un domaine de confiance pour la fonc- 
tion de répartition est très complexe et n'est pas encore résolu pour 
les variables vectorielles. Pour les variables aléatoires scalaires, le 
problème se simplifie du fait que pour toute fonction de réparti- 
tion continue À (x), la distribution de la variable aléatoire S — 


— max | F (x) — F (x) | ne dépend pas de F (x). Cela découle du 
résultat du point 5.2.3 suivant lequel, pour toute fonction continue 
F (x), la variable aléatoire Y — F(ÆX) est distribuée, dans le cas 
d'une variable aléatoire scalaire À, uniformément sur l'intervalle 
(0, 1). 

Soit G, (s) la fonction de répartition de la variable S au cours de 
n épreuves. Les valeurs de G, (s) pour s = k/n, k — 1, ..., n — 1, 
sont définies par la formule [58] (cf. également [103]) 


Ga (+) = dun G ) (A1, .., n—1), (6) 


*) On peut considérer que la fonction échelon, pour un argument vectoriel, 
est égale au produit des fonctions échelon de toutes les coordonnées de l’argu- 
ment vectoriel. 


19% 
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où la fonction u,, (hk, m) (h = 1, ..., k; m = 0, 1, ..., n) est 
définie par la formule de récurrence 
h+1 


un (R, m+1)= D HT 
i=1 


et les conditions 
Un (R,m =0 si hkh>m+k, 
Upn (, 0) =0 (h—=1,..., k — 1), u,, (k, 0) = 1. 


En utilisant la formule (6), Massey a élaboré des tables des valeurs 
G, (k/n) dés fonctions G, (s), puis, par interpolation, a obtenu la 
table des valeurs des fonctions G, (s) en fonction de la variable u — 
— sV n pour différents nr ou, ce qui revient au même, la table des 
valeurs des fonctions de répartition Æ, (u) de la variable aléatoire 
U—=SVÿn = Vnmax]|F (x) — F (x) | pour différentes valeurs du 
nombre d'épreuves n. À l'aide de ces tables, on peut trouver les 
bandes de confiance exactes pour les fonctions de répartition à esti- 
mer des variables aléatoires scalaires. Plus concrètement, le domaine 
de confiance pour F (x) correspondant au niveau de confiance « 
est défini par l'inégalité 

| F(x)—F (2)| <u,/Vn pour tout x, (7) 


où u, est trouvé en résolvant l'équation X, (u,) — & à l'aide des 
tables des fonctions K, (u.,). L’inégalité (7) définit une bande aléa- 
toire, limitée d’en bas et d'en haut par deux courbes en escalier, à 
l’intérieur de laquelle le graphe de la fonction inconnue F (x) doit 
être entièrement confiné avec une probabilité &. Cela fait qu'en 
moyenne ce n’est que dans 100 (1 — &) % des cas la réalisation du 
domaine de confiance défini par l'inégalité (7) ne contiendra pas 
entièrement le graphe de la fonction de répartition Æ (x) *). 

Remarquons que, bien avant les travaux de Massey, A. Kolmogo- 
rov avait trouvé la distribution limite (asymptotique) de la variable 
U quand nr — [41]. Il a démontré que pour tout u __ 


K (u)=lim K,(u)=1—2 D (—1)'+ie-2viut, (8) 
n 00 v=1{ 


C'est pourquoi, pour un nombre d'épreuves n suffisamment élevé, 
la quantité u, dans (7) peut être déterminée à partir de l'équation 


*) Remarquons qu’en utilisant l'intervalle de confiance du point 6.3.2 
pour la probabilité, on peut obtenir un intervalle de confiance bien moins large 
pour la valeur de F (r) pour chaque x pris séparément. Toutefois, de tels inter- 
valles de confiance n’ont aucune signification pratique car, lors de l'estimation 
de la fonction de répartition, il faut trouver ses limites probables simultané- 
ment pour tous les zx. 
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K (u,) — @ d'après la table de la fonction de Kolmogorov Æ (u) 
(annexe 3, table 7). 


Exemple 2. Dans les conditions de l'exemple précédent, trouver la 
bande de confiance pour F (x) correspondant au niveau de confiance & — 0,95. 
Comme dans ce cas précis, nr — 100, alors, après avoir déterminé dans la table 7 
u — 1,362, nous obtenons u,,/10 — 0,1362. En décalant de cette quantité, vers 
le haut et vers le bas, le graphe de la fo rtion de répartition empirique obtenu 


yl: 
1 


—400  -200 0 200 460 EGO >» 
Fig. 33 


à partir des résultats des épreuves et en prenant en considération que 0< F (x) << 
< 1, nous obtenons la bande de confiance pour F (x) représentée sur la fig. 33. 
Le graphe de la fonction inconnue est entièrement confiné avec une probabilité 
a — 0,95 à l’intérieur de cette bande. 


1.6. Autres estimations de la densité de probabilité. En dérivant 
la formule (5) et en prenant en considération le fait que la dérivée 
de la fonction échelon est une fonction Ô, nous obtenons une estima- 
tion de la densité de probabilité de la variable X sous la forme 


F(@=+ D 6(—X). (9) 


Il est clair que, dans le cas d’une variable continue X, cette estima- 
tion ne peut être proche de f (x) pour aucune valeur de x, quel que 
soit le nombre d'épreuves n. Cette estimation n'est pas consistante. 
Pour la corriger et la rendre consistante, on peut remplacer la fonc- 
tion Ô par une certaine densité de probabilité continue 4, (t). L’esti- 
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mation de la densité de probabilité sera alors déterminée par la for- 
mule 


f (D= ZE Y vx). (10) 


k=1 


Il est naturel de choisir la densité de probabilité 4, différemment 
pour différents nr. Plus x est grand, plus proche doit être 1, (£) de la 


fonction 6, à (t). Par ailleurs, dans l'expression (10), la fonction f (x) 
pour ñn —+ oo ne doit pas receler de fonctions ô. Cela aura lieu si 
%, (t) tend vers 6 (t) suffisamment lentement pour que w, ({t)/n —+ Ô 
pour tous les ? quand nr — ©. Après l’exposé de ces quelques raison- 
nements intuitifs, on peut passer à la démonstration rigoureuse du 
théorème suivant. 

Les deux conditions suivantes sont suffisantes pour que l'estimation 
(10) de la densité de probabilité f (x) soit consistante en tout point de 
continuité de f (x) : 


{ 
O0 


1) | bia—2f()d-+f() quand no. (41) 


et en chaque point de continuité de f (x); 
2) sup Pn(t)—0 quand n—0c. (12) 


> Pour démontrer cette affirmation, trouvons l'espérance mathe- 


matique et le second moment de l'estimation Î (x). Comme toutes 
les valeurs expérimentales X,, ..., À, de la variable aléatoire X 
ont pour densité de probabilité f (x), nous avons 


MI (@=+ D Mbnte—X)= | a (z—2) f (de. 
v=i oo 


Cette variable tend, en vertu de la condition (11), vers f (x) quand 


n— oo en chaque point de continuité de f (x), Mi (x) — jf (x) De 
plus, comme les variables aléatoires X,, . .., À, sont indépendantes, 
nous avons 


MP (2 =<+ DMX) + D Mn (c—X 9) Mn (z—X,)= 


v=i TES 
=+fne-2 our [ue of. 
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Or, 
L | pG—2) f() ds < supp À 4 (e—2) f (2) d2- 


En vertu de (12), le second membre de cette inégalité tend vers 0 


quand n —> oo. C’est pourquoi Mf: (x) tend, en vertu de (11) et (12), 
vers f* (z) quand 7 —+ oo en chaque point de continuité de f (x), 


ff? (x) — f* (x). Nous avons, par conséquent, 


MI (@) — f @F = M (x) — 2 (x) Mf (x) + f (+0 
quand 7 —+ en chaque point de continuité de f (x). Ainsi, quand 


les conditions (11) et (12) sont vérifiées, l'estimation jf (x) converge 
en m.q. vers j (x) en tout point de continuité de f (x). Mais, en vertu 
du théorème du point 6.1.3, il découle de la convergence en m.q. 
la convergence en probabilité (P.), autrement dit la consistance 


de l’estimation Î (x) en chaque point de continuité de f (x). 
Remarquons que si f (x) est continue pour tous les zx et si la con- 


vergence dans (11) est uniforme par rapport à x, alors f (x) converge 
en m.q. et en probabilité (P.) vers f (x). 

Les conditions (11) et (12) sont vérifiées et par conséquent l’esti- 
mation (10) est consistante, en particulier si 4, (t) = |cx |” % (ct), 
où 4 (s) est une densité de probabilité bornée arbitraire, et c, sont des 
nombres vérifiant les conditions | c, | —> ©, c"/n — 0 quand nr —+ co, 
où m désigne la dimension du vecteur aléatoire X. Dans ce cas, la 


condition suffisante pour la convergence uniforme de f (x) vers f (x) 
est la continuité uniforme de f (x) [23, 62, 70, 93, 125]. 

Le théorème que nous avons démontré ne résout pas le problème 
du choix de la densité 4, (£). Il laisse, pour ce choix, un vaste arbi- 
traire. Cela permet de poser le problème de l'optimisation des esti- 
mations de la forme (10) pour une valeur donnée de n à l’aide du 
choix de w, (£). Toutefois, dans le cas général, la solution de ce 
problème d'optimisation dépend de la densité de probabilité incon- 
nue f (x) et, de ce fait, ne présente aucun intérêt du point de vue 
pratique. 

Remarquons encore que l’on peut obtenir des estimations de la 
forme (10) également pour les dérivées de la densité de probabilité 
f (x) (23, 1251. 


$ 2. Représentation approchée des distributions 


2.1. Le système des courbes de Pearson. Il est souvent nécessaire, 
dans les applications, de représenter approximativement la densité 
de probabilité ou la fonction de répartition d’une variable aléatoire 
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à l’aide d’une expression analytique convenablement choisie. En 
particulier, il est nécessaire de trouver des expressions analytiques 
adéquates pour les distributions estimées à partir des résultats des 
épreuves. Cela peut être réalisé par de très nombreux procédés. 
Ainsi, la formule (10) donne, par exemple, directement une estima- 
tion de la densité de probabilité sous forme d’une combinaison li- 
néaire de fonctions bien déterminées. Toutefois, ce procédé unique 
d'obtention d’une estimation non paramétrique de la densité de pro- 
babilité sous une forme analytique présente l'inconvénient que le 
nombre de termes dans (10) est égal au nombre d'épreuves x qui, 
généralement, est grand. Toute simplification de la représentation 
analytique de la densité de probabilité conduit inévitablement à 
une estimation paramétrique, c’est-à-dire à remplacer l'estimation 
non paramétrique par une estimation paramétrique. 

On utilise largement, pour une représentation analytique appro- 
chée des densités de probabilité des variables aléatoires scalaires, 
le système des courbes de distribution de K. Pearson [71, 74]. Il a 
remarqué que la majorité des densités de probabilité y = f (x) que 
l'on rencontre dans les problèmes pratiques vérifiait une équation 
différentielle de la forme 


Î. x+a 
JT Hopbirtosse 


où a, b,5, b, et b, sont certaines constantes. En particulier, cette 
équation est vérifiée par les distributions normale, exponentielle, 
de Student, et les distributions f, y, 4 et x°. En modifiant les para- 
mètres a, b,, b, et b,, on peut obtenir une grande diversité de courbes 
de distribution. 

Un autre système de courbes pour la représentation approchée 
des densités de probabilité et des variables aléatoires scalaires, base 
sur l’analyse des causes de leur écart à la distribution normale dans 
l'industrie, a été proposé par Borodatchev [10]. 

2.2. Développement orthogonal des densités de probabilité. Le 
procédé le plus général de représentation approchée des distributions 
des variables aléatoires scalaires et vectorielles est leur représentatio 
sous forme de combinaisons linéaires de certaines fonctions lon 
en particulier sous forme d’un développement limité en série. Nous 
exposerons ici le procédé de développement des densités de probabi- 
lité à l’aide des polynômes orthogonaux et le procédé général de 
leur approximation à l’aide des combinaisons linéaires de fonctions 
données. 

Soit / (x) la densité de probabilité que l'on doit représenter par 
une expression analytique, f, (x) une certaine densité de probabi- 
lité « étalon », p, (x) (n = 0, 1, ...) un système de polynômes 
orthonormés par rapport à la distribution f, (x), c'est-à-dire véri- 
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fiant la condition 


C0 


| Ps (2) pa (2) fo (2) d7 = Evu (13) 


—œo 


où, comme toujours, Ô,, = 0 si uv et Ô,, — 1 si u = v. Le 
système des polynômes p, (x) vérifiant la condition (13) peut être 
trouvé en appliquant le procédé connu pour orthonormer des fonc- 
tions pour toutes les puissances des fonctions des coordonnées du 
vecteur z [42]. On a alors toujours p, (x) — 1 du fait de la propriété 
(2.11) de la densité de probabilité, et p, (x) représente, dans le cas où 
z est scalaire, un polynôme de degré n: 


Po(z)= 1, p = À annt* (n=1, 2, ...). (14) 


Nous rechercherons le développement formel en série de la den- 
sité de probabilité f (x) sous la forme 


f (2) = fo (x) à, CmPm (Z)- (15) 


Pour déterminer les coefficients c,, multiplions (15) par p, (x) et 
intégrons le résultat de —o à oo. Nous obtenons alors, compte tenu 
de (13), 


CL = | Pn(a)f(x)dr (n=0, 1, 2, ..….). (16) 


Cette formule peut être écrite symboliquement sous la forme 
Co — À, Cn —= Pr (&); (17) 


où Ph (&) représente le résultat du remplacement, dans l’expression 
du polynôme p, (x) de tous les monôûmes de la forme xk1...xAn, 
par les moments correspondants Œhse-sh, de la variable aléatoire 


X de densité de probabilité f (x). En particulier, dans le cas où x est 
scalaire, nous avons en vertu de (14), les relations 


n 


Co = 1, Cr = A0 + 2, Ann%n (n=T,. 2, ::4); (18) 


où a, désigne le moment d'ordre X de la variable aléatoire À de 
densité de probabilité f (x). Ainsi, tous les coefficients de la série (15) 
sont aisément déterminés si l’on connaît les moments de la variable 
aléatoire X. Il faut évidemment pour cela, que tous les moments 
de tous les ordres existent et soient finis. 

La série (15) converge vers j (x) dans certaines conditions et, 
par conséquent, peut servir de représentation analytique de f (x) 
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avec n'importe quel degré de précision. Toutefois, la convergence ou 
Ja divergence de la série (15) n’a pas de signification pratique; la 
seule chose importante est que la densité de probabilité f (x) puisse, 
avec une précision suffisante, être représentée avec un petit nombre 
(habituellement 2 ou 3) de termes de la série. D'autre part, on ne 
connaît habituellement plus ou moins que les premiers moments 
de la variable aléatoire et on ne sait même pas, en ce qui concerne 
les moments d'ordre supérieur, s'ils existent ou non. C’est pourquoi 
on utilise le développement (15) sans s'intéresser au problème de sa 
convergence. La pratique montre que la plupart des distributions 
que l’on rencontre dans les applications peuvent être représentées 
avec une précision suffisante par un développement limité de (15), 
de même que par les courbes de Pearson. 

Avant de représenter la densité de probabilité d’une variable 
aléatoire À par le développement (15), il est commode, auparavant, 
de la normer, c’est-à-dire de remplacer la variable aléatoire À par 
X' = K:1/2(X — m.) *). Cette variable aléatoire a une espérance 
mathématique égale à O0 et une matrice de variances-covariances 
unité et la même distribution que la variable X (exemple 5.28). 
Par conséquent, pour la variable aléatoire normée scalaire, nous 
avons œ;y =0,a@a = 1, ay = pin (k = 2, 3, . . .) et les formules (18) 
sont de la forme 


Co — 1, C1 — 10: Ca — Ang 5 os; 
n 
Cn — Ang + En2 re AnhUx (n =, 4, . 2)e (19) 


2.3. Développement de la densité de probabilité à l’aide des 
polynômes de Hermite. On peut construire le développement (15) 
à l’aide de différentes fonctions « étalons » f, (x), aussi bien pour 
les variables aléatoires continues que discrètes ou continues-dis- 
crêtes. Le choix de la densité de probabilité « étalon » est déterminé 
dans une large mesure par le caractère de la fonction f (x). Du choix 
judicieux de f, (x) dépend la simplicité et la précision de la repré- 
sentation de la densité de probabilité f (x) par le développement 
limité de (15). 

Pour les variables aléatoires continues, on utilise largemen{ le 
développement (15) basé sur la distribution normale. Dans ce cas, 
nous avons, en vertu de (3.90), pour la variable aléatoire scalaire 
normée, l'expression 
Î 


ft) == ex. 
V 27 
*) Si A, = AAAT, où A est la matrice diagonale dont les éléments diago- 
naux sont À, Àoy + + «+ Amr et À une matrice orthogonale, alors, par définition, 


nous avons AŸ — AAŸAT pour tout v, où AŸ est la matrice diagonale dont les 
éléments diagonaux sont À7, ..., Àm. 
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Dans ce cas, les polynômes p, sont définis par la formule 


Par) He) (m0, 1, 2, ...) (20) 


où H, (x) sont les polynômes de Hermite : 
H,(z)=1, H;(z)=zx, H;(x) = x —1, 


H3(\ = 2 — 3x, H,(x) = 2 — Gr + 3, (21) 
et, généralement, 
(n/2) 
H,(x)=2+ Ù (—1)"(2m—1)!! Cia, (22) 
m=1 


Dans ce cas, les formules (19) donnent, pour les sept premiers coef- 
ficients c,, les expressions 


Co=AÂ, Cy=co—0, cs— 


—, G= — , 
V317 * ya: 
Hs — 10js Us — 1514 + 30 
Co =  —_— 23 
V51 k V1 (3) 


et la série (15) devient 


f (2) = 


e-x?/2 [1 Fe D 22 ES (24) 
= 3 


Etant donné que nous avons 


1 n f(n n un 
7e Ha (2) = (— 1)" 8 (a) = (— 1)" DE (2), 
où À (x) est la fonction de Laplace définie par la formule (3.91), 
on peut représenter la formule (24) sous la forme 


f (æ) =" (2)+ 5 es Qn*1) (x). (25) 
n=$ 


Ce développement est habituellement appelé série de Gram-Charlier 
du type À. 

Etant donné que pour toute variable aléatoire scalaire X le mo- 
ment d'ordre 4 de la variable normée correspondante est égal à u,/0", 
où Lu désigne le moment centré d’ordre 4 de la variable À, et o son 
écart-type, alors, pour une variable aléatoire arbitraire À dont l' écart- 
type est o et l'espérance mathématique est différente de 0, les quan- 
tités 4 dans les formules (19) et (23) doivent être remplacées par les 
quantités correspondantes u,/0*. En définitive, les formules (23) 
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et (25) deviennent 


Î 
Co= 1, Cy= C2 = 0, C3 — 31 2, Cy — 7 (Et —3), 
1 1 8 ‘ 
5 V 51 (5 10 je fer V 61 (£—15 Ét +30), (26) 


f (2) = 3 [| D’ (==) + 2 ee tn 1) (== ) 1 (27) 


En comparant les formules pour c; et c, avec (3.83) et (3.84), 
nous voyons que les coefficients c; et c, sont respectivement propor- 
tionnels à l’asymétrie y, et à l'aplatissement y., c3 = Y1/V 3!, c, = 
— y2/V 41. 

Quand on applique le développement en série limitée (27) pour 
trouver l'estimation de la densité de probabilité, les moments dans 


les expressions des coefficients c, sont remplacés par leurs estima- 
tions. 


Exemple 3. Représenter, à l’aide de la série de Gram-Charlier, la 
densité de probabilité d'une variable aléatoire uniformément distribuée. 


Fig. 34 


En normant la variable aléatoire, nous obtenons b — —a — V3 (exemple 
3.3). En calculant, dans ce cas, les moments de la variable aléatoire et les cocf- 
ficients c,,, nous obtenons le développement (25) sous la forme 


(= (0 OV (+R OUI GE. 


On a montré, sur la fig. 34, l'approximation d'une densité de probabilité cons- 
tante par 1, 2 et 3 termes du développement (respectivement les courbes 1, 2 et 3). 

Excmple 4. Représenter par la série de Gram-Charlier la densité de 
probabilité d’une variable aléatoire discrète dont les valeurs possibles sont tous 
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les nombres négatifs et cela de sorte quë 
P(X=m)=pm (m=0, 1,2, 3,...). 


Dans ce cas, il est naturel de choisir, en qualité de distribution « étalon », 
la distribution de Poisson possédant le même premier moment «,: 


a m 


fo)= » 


m=0 


e 6(r—m). 


On vérifie aisément que les polynômes orthonormés Ph (x) s'expriment à l'aide 
des moments aœ?, a, ... de la distribution « étalon » f, (x) et des moments 
Gr Ge, - - . de la distribution f (x) pour tous f, (x) et f (x) par la formule 


(— 1)" Aon (x) 


Pn (rx) = ap (n=4;:2; 12), 
V Aon-cAen 
où 
| z zn 
0 0 
(e À œ 
Agn (z)= è (a=1, 2, ..….), 
0 0 0 
Ln_1 Zn on 1 
0 0 
1 ep L 
0 0 0 
[e 2 (e 24 ss © 
Aap=| ! * Pi | (p=1, 2, ...). 
0 0 
Xp Ap+1 X2p 


Conformément à (17), le coefficient c, s'obtient en remplaçant, dans le détermi- 
nant A:, (x), les degrés de l'argument x par les moments correspondants. Nous 
obtenons, en définitive, pour f (x) le développement | 


fH=ht@ (14) Se, 


Azn-24an 
n=1 
où 
1 (e #1 An 
te 
ai an 
han (a) = (n=1, 2, ) 
0 0 0 
Ln_ 1 a, - Lon- Î 


En particulier, pour la densité de Poisson, én posant «a = a, et en exprimant 
a, a, - .. en fonction de «&;, nous obtenons 


- us vs 2 9 us : 1 2 
Î (r) = 2 _— ei [1+ Lo = œ: ns (Œo Xi _. + 1) | m—+ 
ie, Lo — A1 —Qf 


eng 7 o Ô(r—m), 
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où 


Exemple 5. Trouver une ei rat approchée de la densité de pro- 
babilité pour les données expérimentales de l'exemple 1 en se limitant dans la 
formule (27) aux trois premiers termes. 

Dans les conditions de l'exemple 1, nous trouvons la moyenne empirique 
et les moments centrés d'ordre 2, 3 et 4 x — 18,2, u? — 2,80-104, 1% = 3,4.105, 
u# = 15,17.109 *), après quoi nous trouvons, à l’aide des formules (3.83) et 
(3.84), les estimations de l’asymétrie et de l’aplatissement : 


. 3,4- 10° = 15,17 - 108 


V1 725 808/2.108 0,072, V2= 5 807.108 © — 1,07. 


Nous trouvons ensuite les coefficients c; et ca: © =Y,/V 3 & 0,030; c, = 


=}/VA & —0,22. En portant ces valeurs 0*= V/ i#*=167 dans (27), nous 
obtenons l'expression approchée de la densité de probabilité : 


à — — 18.2 
Î (x) = 0,00598 Lo (= ) — 0,042 V) (=) - 


— 0,04@0V z—18,2 } 
É 167 : 


Le graphe de cette densité de probabilité est représenté sur la fig. 32 par une 
courbe continue. A titre de comparaison, on a indiqué par une courbe en trait 
discontinu le graphe de la densité de probabilité normale pour les mêmes premier 
et second moments. 


2.4. Série d’'Edgeworth. Le développement en série de la densité 
de probabilité à l’aide des polynômes orthogonaux, en particulier la 
série de Gram-Charlier, possède la propriété que, pour calculer les 
coefficients c,, il faut connaître les moments de la variable aléatoire 
jusqu'à l’ordre n inclus. Or, le moment d'ordre n figure souvent dans 
l'expression du coefficient c, avec un poids tellement faible qu'il 
n'a pratiquement aucune influence sur la quantité c,. En ce sens, 
le cas le plus caractéristique est celui où la variable X représente la 
somme d’un grand nombre de termes. Conformément au théorème 
limite du paragraphe 5.4, la distribution de la variable À, dans ce 
cas, est normale dans des conditions suffisamment générales. Si 
l’on représente sa densité de probabilité par la série (27), alors tous 
les termes de la série, sauf le premier, tendront vers O0 quand le nom- 
bre de termes composant la variable X croît indéfiniment. Dans ce 
cas, il est important d'obtenir un développement de la densité de 
probabilité tel que tous les termes du même ordre par rapport an 
soient regroupés. Pour résoudre ce problème, considérons le cas où 


*) Pour calculer les moyennes empiriques et les moments centrés d'ordre 2, 
3 et 4 à partir d'un échantillon groupé, on propose dans [94]}le programme 
MOMEN qui utilise pour le calcul des fréquences le programme TAB. | 
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Ja variable X représente la somme de variables aléatoires indépendan- 
tes suivant la même distribution X,,..., À, et possédant des mo- 
ments de tous les ordres. 

Soient Lo — 0°, ls, . . . les moments de la variable aléatoire 
À = X; Founck À. el ui! = o', us, . .. les moments de chacune 
des variables aléatoires , CRE » Àn: Exprimons les moments lo, 
Us, - . . en fonction des moments Me, Hs, . . . Nous obtenons alors, 
en vertu de l'indépendance des variables *: ….. Àn, les relations 


Me = = NU, = RO, Us = AU: 
us = np{ + 3n (n — 1) of, 
us = nu, + 10n (n — 1) ou;, (28) 


Le — nu, + 10n (n —1) Ty + 
+ 15n (n — 1) ou, + 157 (n — 1) (n — 2)0;, 


En portant ces expressions dans (26), nous trouvons 


_ 1 _us RE US + 
ST YST ont" Va (Si 3] 
den le 0) à 
37 V5] % OÙ / n3/2° 
pe hs 15h — 10 + 80) + 


En substituant ces expressions dans (27) et en regroupant les termes 
du même ordre par rapport à “É nous aurons 


f(x =+{o (= ]— 3168 pAV) (== Jr 12 + 
+[ + (E- ] ot" (==) pts es e EVID (E) rt 
[5 ($ 106) 0 (=) + 


5! \ o? 
, 39 Hz f Hs VIII T—mMx 
EH (5) DOS 
280 ps _fI—Mmz> \ 1 4 , 
ENT ol V8... }. (29) 


Il en découle que pour calculer f (x) avec une précision de l'ordre de 
O (n°), il suffit de calculer les coefficients Ce» Cr, Cs et cs en ne tenant 
compte que des moments d'ordre non supérieur à 4. En portant dans 
(29) les expressions des moments 0°, us, 4, . . . en fonction de 6”, 
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Ua, Us, - . -, tirées de (28), nous mettrons (29) sous la forme 
fa =+{o (es) 5 (Ets | + 


G 7 3! 0 O 
fr (es) 0 (2) (4) en (ane) 


{hr (H-s08) ones) à 


+ (hs) EN (Es) + 


O 


280 [Ua OX) T—Me À 
= ul Re ur op Re 
où chacune des expressions entre crochets ne contient que des quan- 
tités du même ordre par rapport à n-1. 

Le développement (30) est appelé série d'Edgeworth [126]. Elle 
représente le développement asymptotique de f (x) *) suivant les 
puissances de n-}/*, avec cette particularité relevée par Cramer que 
le terme restant est de l'ordre du premier terme rejeté dans la série 
[45]. 

Si on se limite dans (30) aux termes d'ordre n-! et si l’on tient 
compte du fait que les quantités u:/0* et (1,/0*) —3 représentent, con- 
formément à (3.83) et (3.84) respectivement, l’asymétrie y, et l'ap- 
latissement y, de la distribution de la variable aléatoire À, alors 
on obtient l’expression approchée suivante pour la densité de proba- 
bilité de la variable aléatoire X : 


ju Lu (Re) ro (ee) 


+ o0 (= ] + pD (= )} . (31) 


O 


Cette formule est souvent utilisée en pratique. 


*) La série D arr (:) est appelée développement asymptotique de la fonction 
f () quand z — :,, si pour tout », on à @, (2) — 0 quand : + 2 ct 


n 


[(x)— D anp (2)= 0 (n (2)). 
k=—1 


J1 cst évident que toute série de puissances qui converge vers la fonction f (r) 
représente son développement asymptotique quand : —+ 0. Toutefois. le déve- 
loppement asymptotique peut ne pas converger pour aucun 2. Les développe- 
ments asymptotiques, de même que les séries convergentes, sont largement utili- 
sés pour calculer les valeurs des fonctions et pour résoudre divers problèmes 
pratiques. En pe cas. les développements asymptotiques suivant les puissan- 
ces positives de l’argument ne donnent une précision suffisante que pour des 
valeurs des arguments suffisamment petites, et le développement asymptotique 
suivant les puissances négatives de l’argument uniquement pour des valeurs 
suffisamment grandes de l’argument. 
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On peut, de la même façon, obtenir la série d'Edgeworth pour la 
densité de probabilité d'une variable aléatoire vectorielle [20]. 

2.5. Représentation de la densité de probabilité par une 
combinaison linéaire de fonctions données. Quand on utilise un 
développement limité en polynômes orthogonaux, alors, comme nous 
l'avons vu dans l'exemple 3, on obtient parfois de faibles valeurs 
négatives de la densité de probabilité. Cela est une conséquence natu- 
relle du fait que tout développement limité de la série ne donne qu'une 
approximation de la valeur de la fonction représentée par cette série. 

Passons maintenant au procédé général de représentation appro- 
chée de la densité de probabilité par une combinaison linéaire de 
fonctions données. Soient f (x) la densité de probabilité de la variable 
aléatoire X, @1 (x), . . ., ænN (x) des fonctions données. Le problème 
de l'approximation de la densité de probabilité f (x) par une com- 
binaison linéaire de fonctions , (x), . - ., @n (x) se ramène à dé- 
terminer les coefficients c,, . .., cA dans la formule approchée 


f (à) & ci (@) +... + cxpn (2). (32) 


Ce problème peut étre résolu par divers procédés. Il est résolu par 
les méthodes standards de la théorie des approximations des fonc- 
tions, si f (x) est connu. Toutefois, en théorie des probabilités, ce 
problème doit généralement être résolu quand la densité de proba- 
bilité f (x) n'est pas connue. Dans ce cas, on doit utiliser des procé- 
dures spéciales. 

Si l’on connaît N — 1 moments de la variable X, alors, en éga- 
lant ces moments aux moments correspondants calculés à l’aide de 
l'expression (32), nous obtenons V — 1 équations reliant les coeffi- 
cients C1, ..., Cn. En ajoutant à ces équations la relation évidente 


C4 | OP: (x) dx + . + CN | Px (x) dx = 1, 


nous obtenons V équations algébriques linéaires pour déterminer les 
Ci: . : 7e en: e e ? e Cd L] e 
Dans le cas particulier d'une variable aléatoire scalaire À nous 
obtenons, à partir de ces moments @1, ..., &n-1, les équations 
N 
Don faq (rdr=a, (r=0, 1, .., N—1; =). 


h=1 


Dans le cas d’une variable vectorielle X, il convient de choisir 
N égal au nombre de tous les moments connus augmentés de 1. 
Dans le cas où l’on doit trouver une estimation de la densité de 
probabilité f (x) de la forme (32) à partir des résultats des épreuves, 
le problème se ramène à l'estimation des coefficients inconnus c;, ... 
., CN- 
20—02%4 
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Ce problème est résolu par n’importe quelle méthode de recherche 
des estimations des paramètres inconnus des distributions. En parti- 
culier, on peut trouver les estimations des coefficients c;, ..., Cn 
par la méthode du maximum de vraisemblance ou la méthode des 
moments. Dans ce dernier cas, elle est résolue de la même façon que 
dans le cas des moments connus; seulement, dans les équations pour 
Ci, - - +, CN, CeS moments sont remplacés par leurs estimations. 

Si l’on prend en qualité de fonctions ,, . .., @n certaines den- 
sités de probabilité, alors on parvient souvent à éviter les valeurs 
négatives des densités de probabilité lors des calculs effectués à 
l’aide de la formule (32). 

On peut également rechercher une représentation approchée de 
la densité de probabilité par une combinaison linéaire de la forme (32) 
des fonctions données m,, . .., @\ dépendant des paramètres incon- 
nus. Le problème se ramène, dans ce cas, à la détermination ou à 
l'estimation simultanées des coefficients c1, . .., cn et des para- 
mètres inconnus figurant dans l’expression des fonctions p;, . .., @x. 
On peut alors prendre moins de termes dans (32), mais, par contre, 
les équations pour déterminer les paramètres ou les estimations in- 
Le que l’on obtient par la méthode des moments, ne seront plus 
linéaires. 


Exemple 6. Représenter la distribution de la variable aléatoire discrète 
de l'exemple 4 par une combinaison linéaire de deux distributions de Poisson : 


Rmumn 


m | 


f(x) = D Le eh +) e7"u | 6 (2—m), 
Mmam0 


en considérant le paramètre Lu inconnu et le paramètre L > 1 connu. 

Dans ce cas, nous avons c1 + c, — 1. C'est pourquoi nous poserons c, = c; 
Ca = 1 — c. Pour déterminer c et u, appliquons la méthode des moments. En 
ayant en vue le fait que les deux premiers moments de la distribution de Poisson 
ume-u/m!\ sont pu et u + u?, nous obtenons les équations 


cu + (1 — c) uh = o, 
c(u+ un) + (A — 0) Gu + pt) = œ. 
En résolvant ces équations et en prenant en considération le fait que, pour 


d> = &, + &?, ces équations ont une solution triviale c = 1, u = «,, nous 
obtenons 


en 2h—BUHR)+ VBA) — APR 
= 2(h—1) ; 
2@: B— at 


ET hALD=VR GENE MR 
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$ 3. Vérification des hypothèses relatives 
aux distributions 


3.1. Problèmes de la vérification des hypothèses. Il apparaît 
clairement de ce qui a été dit au paragraphe 6.1 qu’il n'est pas pos- 
sible, en principe, de déterminer la distribution d'une variable aléa. 
toire à partir des résultats des épreuves. Les estimations obtenues 
expérimentalement de la distribution nous donnent seulement ]a 
possibilité d'élaborer diverses hypothèses relatives à la distribution 
de la variable aléatoire, par exemple l'hypothèse que cette distribu- 
tion est normale. C’est pourquoi se pose le problème de la vérification 
des hypothèses. Ce problème consiste à déterminer dans quelle mesure 
telle ou telle hypothèse relative à la distribution de la variable aléa- 
toire concorde avec les données obtenues expérimentalement. Il est 
clair que ce problème est intimement lié au problème de la détermi- 
nation des domaines de confiance pour la densité de probabilité ou 
la fonction de répartition. Toutefois, il présente également certaines 
particularités. Le fait est que, à partir de l’échantillon servant à 
vérifier l'hypothèse relative à la distribution, on estime habituelle. 
ment également certains paramètres de cette distribution. Par exem. 
ple, lors de la vérification de l’hypothèse relative à la normalité de 
la distribution, on estime, à partir du même échantillon, l’espé. 
rance mathématique et la matrice de variances-covariances (la varian- 
ce, dans le cas d’une distribution unidimensionnelle) de la variable 
aléatoire. Cela fait que la distribution hypothétique est elle-même 
aléatoire, c'est une fonction des résultats aléatoires des épreuves, 
Cela distingue le problème de la vérification des hypothèses relatives 
aux distributions du problème de la détermination des domaines de 
confiance pour les distributions. Ce n'est que dans certains cas, très 
particuliers, que peut apparaître le problème de vérification d’hypo- 
thèses relatives au fait que la variable aléatoire suive une loi de dis- 
tribution entièrement déterminée ne dépendant d'aucun paramètre 
inconnu. 

Pour vérifier les hypothèses relatives aux distributions, on ut. 
lise différents tests d’adéquation. Le test le plus commode et le plus 
universel d’adéquation est celui du khi-deux de K. Pearson. IL ne 
dépend absolument ni de la distribution de la variable aléatoire, 
ni de sa dimension. 

3.2. Test du khi-deux. Le test du khi-deux de K. Pearson est 
basé sur l’utilisation, en qualité de mesure de l’écart des données 
expérimentales à la distribution hypothétique, de la même grandeur 
qui sert à construire les domaines de confiance pour une densité de 
probabilité inconnue, en remplaçant les valeurs théoriques inconnues 
des probabilités d'appartenance aux intervalles par les probabilités 


» 


calculées à partir de la distribution hypothétique. 


20% 
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Supposons que le domaine des valeurs possibles de la variable 
aléatoire soit partagé en r intervalles (multidimensionnels, c'est-à- 
dire des rectangles, dans le cas d'une variable vectorielle). Soient, 


comme au paragraphe 1, P,, ..., P, les fréquences aléatoires d’ap- 
partenance à ces intervalles, obtenues par suite de »r épreuves, P,, 

, P, les probabilités correspondantes d'appartenance à ces mêmes 
intervalles, calculées à partir de la distribution hypothétique. Dans 
le cas général, ces probabilités sont des fonctions des estimations 
des paramètres inconnus obtenues à partir des mêmes données expé- 
rimentales et, par conséquent, sont également des variables aléatoires. 

Supposons que les estimations des paramètres inconnus de la 
distribution hypothétique soient calculées à partir du même échan- 


tillon groupé que les fréquences P,, ..., P,. Dans ce cas, les proba- 
bilités P,, .... P, seront certaines fonctions des fréquences P,, ... 


b, et, au lieu de la quantité H définie par la formule (1), nous 
devrons prendre, pour estimer l'écart des données expérimentales à 
la distribution hypothétique, la quantité 


Z=n >) Eh, (33) 


v 
vai 
où P,, ..., P,sont des fonctions définies des fréquences b., Pr. 

Neyman et Pearson ont montré que si, pour calculer les probabilités 
P,,...,P,, onutilise l'estimation asymptotiquement efficace et asymp- 
totiquement normale du paramètre inconnu à s dimensions de la distri- 
bution hypothétique à partir de l'échantillon groupé, alors la quantité 
Z, définie par la formule (33), suit à la limite, quand n — , une 
distribution du khi-deux à r — s — 1 degrés de liberté [65, 45]. 

En utilisant ce théorème, on peut estimer la divergence des don- 
nées expérimentales de la distribution hypothétique à l’aide des 
tables du khi-deux (table 5). Choisissons une probabilité p suffisam- 
ment faible pour qu'un événement associé à une telle probabilité 
puisse être considéré comme pratiquement impossible et définissons 
X5 à partir de l'équation 


P(LZ%)= | palu)du=p, k=r—s-—1. 
3 


Si la réalisation £ — #* de la variable Z, obtenue par suite des épreu- 
ves, dépasse 4° ou lui est égale, € = x° > %5, alors on considère que 
la distribution hypothétique ne concorde pas avec les données expé- 
rimentales, étant donné que pour cette loi de distribution il est pra- 
tiquement impossible d'obtenir pour un seul échantillon une valeur 
& = %° > x5- La probabilité de cet événement pour un grand nombre 
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d'épreuves x est approximativemént égale à p, c'est-à-dire que sa 
valeur est négligeable. On dit alors dans ce cas que l'on est en pré- 
sence d’un écart significatif des données expérimentales de la distri- 
bution hypothétique. Si, au contraire, on a Ë — 4° << 5, alors on 
considère que la distribution hypothétique ne contredit pas les données 
expérimentales mais concorde avec elles. 

La quantité x? est appelée seuil de signification à 100 p % de 
l'écart de l'échantillon à la distribution hypothétique. Dans les 
applications, on considère habituellement les seuils de signification 
à 5, 1 et 0,1 % en fonction de la nature du problème. 

Pour une vérification complémentaire de la concordance des 
données expérimentales avec la distribution hypothétique, il est 
utile de calculer la probabilité que, pour cette distribution hypothé- 
tique, la variable Z s'avère supérieure à la valeur obtenue £ = %* 
à partir des épreuves réalisées, P (Z > y“). Cette probabilité peut 
également être déterminée approximativement à partir de la table 5, 
Plus cette probabilité est grande, plus l'échantillon concorde avec 
la distribution hypothétique et moins grande est la signification de 
la divergence obtenue entre l'échantillon et la distribution hypothé- 
tique. En effet, si la probabilité P (Z > #*) est grande, alors. lors 
de la répétition de la série donnée d'épreuves en cas de validité de 
l'hypothèse retenue relative à la distribution, on obtiendra souvent 
une valeur de la variable Z encore plus grande que celle Ë = %* 
obtenue à partir des épreuves réalisées. 

Attirons l'attention sur le fait que, après avoir obtenu £ — 
= X°< x et mêmesi on en a obtenu une probabilité élevée P (Z > 
> x‘), nous ne formulons pas de conclusion catégorique relative au 
fait que l'hypothèse choisie est vraie, mais nous disons simplement 
que cette hypothèse ne contredit pas les résultats des épreuves, qu elle 
concorde avec ces résultats, de sorte que nous pouvons l’adopter. 
Pour obtenir une démonstration suffisamment probante que la va- 
riable aléatoire suit véritablement la loi hypothétique de distribn- 
tion, il est nécessaire de répéter la série d'épreuves un nombre de 
fois suffisamment élevé et de se convaincre du fait que la concordance 
obtenue de l'hypothèse avec les résultats des épreuves est stable. 


Si k—=r— s— 1 =>30, alors la variable X = WZ peut être 
considérée comme normalement distribuée M (V/k — 1/2, 1/2), et 
pour calculer la quantité x5 on utilise la formule 


1 13 VS TT 
PX > 4»)= 704 VI—V AT) =p 


et la table de la fonction de Laplace (table 1). 

Soulignons le fait que pour calculer la valeur £ = %* obtenue à 
partir des résultats des épreuves, il faut tenir compte également des 
intervalles infinis associés aux fréquences nulles et aux probabilités 
différentes de O pour la distribution hypothétique. 
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Exemple 7. Dans les conditions de l'exemple 1 vérifier l'hypothèse 
de normalité de la distribution de la variable aléatoire. 

Dans le cas présent, en tenant compte des intervalles infinis, le onzième 
(— co, 385) et le douzième (415, œ), nous obtenons r — 12. Etant donné que 
nous estimons, à partir du même échantillon groupé, les deux paramètres mx 
et Dr, alors s — 2 et k = r — s — 1 — 9. Nous trouvons, à partir de la table 5, 
pour k — 9et p = 0,05, le seuil de signification à 5 % xÿ — 16,92. Pour calculer 
a valeur obtenue du #°, nous trouvons, à partir de la distribution normale 


hypothétique pour mx — x — 18,2, ôx — 0x — 168, les probabilités d'apparte- 
nance aux intervalles Ar,. Les valeurs obtenues des fréquences et les probabilités 
correspondantes sont rapportées dans la table. 

A l'aide de ces données, nous trouvons, à l'appui de la formule (33), x? = 
= 4,157. Comme cette valeur du #° est notablement inférieure à la valeur critique 
%5, nous pouvons considérer que l'hypothèse relative à la normalité de la dis- 
tribution de la variable aléatoire ne contredit pas les résultats des épreuves. 

Calculons encore la probabilité d'obtenir une valeur de la mesure de la 
divergence Z supérieure à celle y? — 4,157 que l’on a obtenue à partir des épreu- 
ves. Nous trouvons dans la table 5, pour k — 9 et %°— 4,157, la valeur 


AU | { 1) 3 4 5 6 7 8 9 10 11 12 
P,-10: [200] 600 | 800 | 1600 | 1900 | 1700 | 1400 | 800 | 700 | 300 | 0 | 0 
Py103 |190| 467 | 919 | 1440 | 1826 | 1837 | 1487 | 959 | 496 | 206 | 82 | 91 


P (Z > 4,157) = 0,908. Ainsi, si notre hypothèse relative à la distribution est 
vraie, on peut, avec une probabilité &0,91, obtenir une divergence encore plus 

ande #° que celle que nous avons obtenue à partir des épreuves. Cela nous sert 
argument complémentaire pour adopter l’hypothèse d’une distribution nor- 
male NW (18,2; 168] de la variable aléatoire X. 

Exemple 8. Vérifier, à partir des mêmes données expérimentales, 
l'hypothèse suivant laquelle la distribution est définie par la densité de proba- 
bilité trouvée dans l'exemple 5. 

En utilisant la formule de l'exemple 5 pour la densité de probabilité et 
les tables 4 et 2 de la fonction de Laplace et de ses dérivées, nous trouvons la 
probabilité d'appartenance aux intervalles correspondants. Les résultats sont 
tapportés dans la table suivante. 


9 


9 10 11 12 


Py- 101 1494 | 1624 1062 


| 582 107 


1621 | 1440 


16 | ms | 0.3 | 35 


Portons ces probabilités et les fréquences correspondantes de l’exemple 5 
dans la formule 63) : nous trouvons x? — 2,528. Etant donné que, dans ce cas, 
nous estimons, à partir du même échantillon groupé, 4 paramètres mx, Ox, ÿ1 et 
, alors s — 4 et la distribution du #* est à k — r — s — 1 — 7 degrés de 
Derté. Nous trouvons alors, dans la table 5, pour k — 7 et p = 0,05 la valeur 
critique xf — 14,07 et la probabilité d'obtenir une valeur du 4° supérieure à 
2,528, P (Z > 2,528) = 0,923. Ainsi, la distribution ajustée dans l'exemple 5 
rare avec les données expérimentales un peu mieux que la distribution 
normale. 
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Exemple 9. Dans les conditions de dr dre 7, vérifier l'hypothèse 
relative à la normalité de la distribution W [15, 1602]. 

Dans ce cas précis, nous n'estimons pas les paramètres de la distribution 
normale à partir de l’échantillon mais simplement nous les adoptons. L'argument 
pour les choisir est simplement le fait que le point z—15 est le point médian 
de l’intervalle occupé par les points expérimentaux et que 51 valeurs expérimen- 
tales de la variable aléatoire sont inférieures à 15, et 49 sont supérieures à 15: 
par ailleurs, 66 % de tous les points sont compris dans l'intervalle (145 — 160, 
15 + 160), alors que, en présence d’une distribution normale, la probabilité 
d’appartenir à l'intervalle (mx — ox, mx + 0x) est égale à 0,68. C’est pourquoi, 
en qualité de mesure de divergence entre la distribution hypothétique et les 
données expérimentales, on peut adopter la quantité H du point 1.3. La distri- 
bution limite de cette variable est la distribution du khi-deux à r — 1 — 11 
degrés de liberté. On obtient alors x° = 5,221 ; le seuil de signification à 5 % 
est 4x8 — 19,68 et P (H >> 4°) — 0,9178. Ainsi, bien que la divergence entre 


les probabilités p, et les fréquences p, soit quelque peu plus forte que dans l’exem- 
le 7, le test du khi-deux nous donne une assurance non moindre pour adopter 
‘hypothèse d’une distribution # [15, 1602] que pour adopter l'hypothèse d'une 
distribution N [18,2 ; 168?]. 
3.3. Etablissement de la distribution limite du khi-deux. Démon- 
trons maintenant le théorème de Neyman et E. Pearson relatif à la 
distribution asymptotique de la variable 


[P,—py (6)}° = WTw 
v=1 Pv (6) 


N 
Î 
5 


où 8=œp(P) est l'estimation du paramètre 6, qui représente une 
certaine fonction du vecteur des fréquences P —[P,... P,]T (c’est- 
-à-dire calculée à partir de l'échantillon groupé), W est un 


vecteur de coordonnées W,=[By— ps ÉnV r/p, (0) (Vs sue 
ss Te 
> Pour trouver les distributions asymptotiques des variables 
W et Z, exprimons le vecteur W approximativement à l’aide du 
vecteur V =[V,...V,IT : 


V,=[P,—p, (8)] V n/p, (8) (v=1, ...,r). 


Supposons tout d'abord que (e) représente l'estimation du ma- 
ximum de vraisemblance, c’est-à-dire la racine de l'équation (7.31), 


9 1n p, (6) 
o8 


que nous écrirons sous la forme ÿ P, — 0. Etant donné 


vai 


que > py (8) = 1, il en découle que ÿ Pv çà) 21229 0, En 
06 


v=i 
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retranchant cette équation de la précédente, nous obtenons 
r nm 
" =. dlnr, (6 
D 1, —p, (OI EN 20. (34) 
v=i 28 
Etant donné que Ô —+ Bet P—+ p (6) en probabilité quand nr —+ c, 
nous rechercherons la solution de l’équation (34) sous forme de son 


développement d’après les puissances de la différence P — p ou, ce 
qui revient au même, d’après les puissances du vecteur V. Nous pou- 
vons alors écrire aux infiniment petits d'ordre 1 près la relation 


1 op, _ 
—8) | 46 =0, 


ÿ [= 
v=i 
ou, après avoir multiplié par 7" 
_OPv_ pa, dPv ôTps C … 
— = 20 Vv— _ya(5 Py 060 06 }(@—6)=0 


v=i v=i{ 


En introduisant la matrice 


on peut écrire l’équation obtenue sous la forme 
CV —V nCCT(8—8) — 


Si la matrice D — [0p,/08 . .. dp,/00] est de rang s, alors C est 
également de rang s. C'est pourquoi la matrice CCT est également de 
rang set, par conséquent, la matrice inverse (CCT)-! existe et l’équa- 
tion obtenue a pour solution 


ô—-0+—— = (CCT)-: CV. (35) 


Cette formule exprime aux infiniment petits d'ordre o (n-!/*) près la 
solution de l'équation initiale (34). 

En utilisant la formule (35), on peut exprimer le vecteur W en 
fonction de V avec une précision de l’ordre o (n-!/*) près. Pour cela, 
remarquons qu'avec une précision de l’ordre V no(| © — 8 |) près, 
nous avons 


W,= Vino 2 [Rp (6-0. 


Pv (8) 
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En portant ici l'expression (35), nous obtenons, avec une préci- 
sion de l’ordre VW nro(n-t/?)—O(n-1/?) près, la relation 


T 
= ve (CC) iv. 


Vs 08 
ou, sous une forme matricielle, 
W=[1—CT(CCT):C]v. (36) 


Ainsi, le vecteur W s'exprime en fonction de V par la formule 
asymptotique (36). Par conséquent, la matrice de variances-<cova- 
riances du vecteur W s'exprime en fonction de la matrice de varian- 
ces-covariances du vecteur V, &, = 1 — qqT par la formule 


Kw=11—CT (CC) C1(1—gg7)11—C", (CC)! C] = 
= [— gqg7—CT(CCT) ic. 
Pour établir cette formule, nous avons utilisé la relation Cq = 0. 
Multiplions (36) à gauche par la matrice C ; nous obtenons CW — 


— 0, Cette égalité nous fournit s relations scalaires entre les coordon- 
nées du vecteur W. En outre, les coordonnées du vecteur W sont. 


liées par la relation scalaire q (8)T W = 0, où q (6) est le vecteur de 


coordonnées V p (Ou, V p, (@). À la limite, quand n — oc, 
cette relation devient la relation entre les coordonnées du vecteur Ÿ, 
gTW = 0. Ainsi, les coordonnées du vecteur W sont liées par s+ 1 
relations scalaires. Cela signifie que la distribution asymptotique du 
vecteur W est une distribution normale dégénérée, concentrée dans. 
le sous-espace à r — s — 1 dimensions et, par conséquent, sa matrice 
de variances-covariances X,, est de rang r — s — 1. Utilisons main- 
tenant le dernier résultat de l'exemple 5.33. Dans ce cas, la matrice À 
est une matrice unité Jet B = KYAKT = K,. Ainsi, la matrice PB 
est de rang r — s — 1 et vérifie la relation À — À, en vertu de 
cette mème égalité Cq = 0, autrement dit, c'est la matrice de pro- 
jection sur un certain sous-espace à r — s — 1 dimensions de l’espace 
à r dimensions. 

Conformément au dernier résultat de l'exemple 5.33, il en dé- 
coule que la distribution asymptotique de la variable Z = WTW 
est la distribution du #* à r — s — 1 degrés de liberté. 


Nous avons obtenu ce résultat en supposant que l'estimation 6. 
du paramètre 6 est une estimation du maximum de vraisemblance. 
Ce résultat est vrai toutefois également dans le cas d'une estimation 


arbitraire @ asymptotiquement normale et asymptotiquement effi- 
cace, étant donné que toutes les estimations de ce genre coïncident 
aux infiniment petits d'ordre o (n-'/*) près et sont définies par la 


314 ESTIMATION DES DISTRIBUTIONS (CH. 8 


formule (35) (dans le cas contraire, les rapports des variances de ces 
estimations ne pourraient converger vers 1 quand n —+ ). 

3.4. Estimation des paramètres des distributions par la méthode 
du khi-deux minimum. La méthode que nous avons exposée de 
vérification de l'hypothèse relative aux distributions conduit natu- 
rellement à rechercher les estimations des paramètres inconnus de la 
distribution hypothétique telles que pour la réalisation obtenue 
& — y° la mesure de divergence Z des données expérimentales avec 
la distribution hypothétique ait une valeur minimale. Nous parve- 
nons ainsi à une nouvelle méthode de recherche des estimations des 
paramètres d’une distribution, la méthode du khi-deux minimum. 
Dans le cas où les probabilités p,, . . ., p, d'appartenance aux inter- 
valles choisis ont des dérivées continues par rapport à toutes les 
coordonnées du vecteur 6, la méthode du khi-deux minimum donne 
pour l'estimation du paramètre 6 l'équation 


—In > LE Pv= Pv <e > n> Gen ee — 0, 


V—= 
où, comme on 0/98 représente le vecteur de coordonnées 


0/98,, ..., 0/08,. En tenant compte du fait que np, = m, repré- 
sente le nombre de points expérimentaux appartenant au v-ième in- 
tervalle (v = 1, ..., r) et que Zp.,/08 = 0, en vertu de l'égalité 
Zp, = 1, nous pouvons écrire l'équation obtenue sous la forme 


: 
Ô 7 — (my— rpy)? 9 In p, 

2 +45 nr © 

v=1 v=i 
La seconde somme figurant dans cette égalité est habituellement peti- 
te par rapport à la première. Si l’on néglige la seconde somme, l'équa- 
tion du khi-deux minimum coïncide avec l'équation du maximum 
de vraisemblance (7.31). C'est pourquoi les estimations du khi- 
deux minimum sont habituellement proches des estimations du 
maximum de vraisemblance. 

La méthode du khi-deux minimum, de même que la méthode du 
maximum de vraisemblance, donne, dans des conditions très larges, 
une estimation du paramètre 8 asymptotiquement efficace et asym- 
ptotiquement normale (aussi bien dans le cas d’un 8 scalaire que dans 
le cas d'un 6 vectoriel). 

3.5. Autres méthodes de vérification des hypothèses relatives aux 
distributions. On peut appliquer, outre la méthode du khi-deux, 
d’autres méthodes de vérification des hypothèses relatives aux dis- 
tributions. Cramer [43], Mises [60] et N. Smirnov [97] ont proposé 
des critères d’adéquation basés sur des mesures de divergence dé- 


pendant de la différence À (x) — F (x), de l’écart de l'estimation 
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F (x) de la fonction de répartition à la fonction de répartition hypo- 
thétique F (x). À ce genre de test se rapporte également le test de 
Kolmogorov, basé sur la distribution limite de la quantité U — 
= Vn max | F (zx) — F(x)|quand ñ —+ © dans le cas d’une fonc- 
tion de répartition hypothétique F (x) de la variable aléatoire sca- 
laire À entièrement définie. En utilisant la table de la fonction de 
répartition limite de Kolmogorov Æ (u) (table 7), on peut vérifier une 
hypothèse relative aux distributions unidimensionnelles exactement 
de la mème façon que lors de l'application du test du khi-deux. 
En se donnant une probabilité suffisamment petite p, on peut trou- 
ver dans la table de la fonction Æ (u) le seuil de signification uw, à 
100 p % défini par l'équation P (U>u,) = 1 — K (u,) = p. Si 
la valeur de u calculée à partir des résultats des épreuves est infé- 
rieure à la valeur critique u,, on peut considérer que le résultat des 
épreuves ne contredit pas l'hypothèse que la fonction de répartition 
de la variable ZX est F (x). Si, au contraire, u > u,, alors il convient 
de rejeter cette hypothèse *). 

On peut, de façon analogue, utiliser le critère de N. Smirnov, 
basé sur la distribution limite, établie par cet auteur, de la quantité 


nMIIF(X) —F(X)F|(a1, ..., z,l qui, dans le cas d'une 
variable aléatoire X, ne dépend pas de F (X). Toutefois, la théorie 
de la vérification des hypothèses basée sur ce genre de critère est en- 
core très faiblement élaborée. C’est pourquoi le test du khi-deux 
reste encore le seul test pratiquement acceptable pour vérifier les 
hypothèses relatives aux distributions dont l'expression analytique 
est connue, mais qui comporte des paramètres inconnus que l’on 
doit estimer à partir du même échantillon, ainsi que des hypo- 
thèses relatives aux distributions multidimensionnelles. 

3.6. Vérification des hypothèses relatives à l’indépendance des 
variables aléatoires. Le test du khi-deux, du fait de son universalité 
et de son applicabilité aux distributions multidimentionnelles, peut 
servir à vérifier de nombreuses autres hypothèses d'autres types. 

Montrons comment on peut, à l'aide du test du khi-deux, vérifier 
l'hypothèse d'indépendance des variables aléatoires. Supposons que 
le domaine des valeurs de la variable aléatoire X soit partagé en r, 
intervalles, et le domaine des valeurs de la variable Ÿ en r, interval- 


les. Soient P;; et p;, la fréquence aléatoire et la probabilité d'’ap- 
partenance du vecteur [XT YTIT à un rectangle qui représente l’inter- 
section du i-ième intervalle des valeurs de ZX et du j-ième intervalle 
des valeurs de Y (i = 1, ...,r,; j = 1,...,r.). Si À et Ÿ sont 
indépendantes, alors p;; — p;.p.;, où p,. et p.; sont les probabilités 


*) Pour vérifier les hypothèses relatives aux distributions à l'aide du test 
de Kolmogorov, on dispose, dans [94], du programme KOLMO, qui utilise, 
pour calculer la fonction de répartition Æ (u), le sous-programme SMIRN. 
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d'appartenance de X au i-ième intervalle et de Ÿ au j-ième intervalle 
G=1,...,r;3;)—=1,...,r2). Les probabilités p;- et p.; peuvent 
être considérées comme r, + r, — 2 paramètres inconnus de la dis- 
tribution du vecteur [XT YTIT (compte tenu des relations Zp;. — 
— Zp.; = 1). Conformément aux résultats des exemples 7.3 et 5.48, 
les fréquences correspondantes 


sont des estimations asymptotiquement efficaces et asymptotique- 
ment normales des probabilités p;. et p.,. C’est pourquoi la quantité 


à (Piÿ—P;eP.;) _ 
z=n Ÿ D, Sr Es 67) 


i=1 3—=1 


suit asymptotiquement une distribution du khi-deux à £ = rir: — 
— (+ ro — 2) — 1 = (r, — 1) (r: — 1) degrés de liberté. Cela 
permet de vérifier l'hypothèse d'indépendance de deux variables 
aussi bien scalaires que vectorielles *). 

On vérifie exactement de la même façon l'hypothèse d'indépen- 
dance d’un nombre quelconque de variables aléatoires. 

3.7. Vérification des hypothèses relatives à la coïncidence des 
distributions. On compte, parmi les autres types d’hypothèses 
que l’on peut vérifier à l'aide du test du khi-deux, les hypothèses 
relatives à la coïncidence des distributions dans plusieurs séries 
d'épreuves; ce sont les hypothèses dites d'homogénéité des données 
statistiques. 

Supposons que par suite de V épreuves successives indépendantes 
comportant 4, ..., ñnA Observations nn, +...nx = n on ait 
obtenu les fréquences d'appartenance de la variable observée X aux 
intervalles A, (v = 1, ..., r), que l'on a obtenus en partageant Île 
domaine de ses valeurs possibles. On demande de vérifier l'hypothèse 
relative à la coïncidence de distribution de la variable X (ou des W 
différentes variables observées) durant ces N épreuves successives. 


Soit P,, la fréquence aléatoire d'appartenance d'une variable 
observée au v-ième intervalle dans la u-ième série d'épreuves, p, 
Ja probabilité d'appartenance au v-ième intervalle (v = 1, 

, Th = fi, , N). Comme la somme des variables aléatoires 
suivant une distribution du khi- deux suit également une distribu- 
tion du khi-deux avec un nombre de degrés de liberté cumulé (excm- 


*) On dispose, dans [94], pour vérifier l° hy othèse d'indépendance de deux 
variables aléatoires à l’aide des tests du x du programme CHISQ. 
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ple 5.31) alors la variable aléatoire 


N r ES 

1 (Puy By 

He ns _ (38) 
n—=1 | 


suit asymptotiquement, pour des probabilités données p,, ..., p,, 
une loi du khi-deux à W (r — 1) degrés de liberté, si la distribution 
de la variable observée est la même au cours de toutes les séries d'é- 
preuves. Cela nous permet de vérifier l'hypothèse relative au fait 
que toutes les N séries d'épreuves sur la variable observée suivent 
la mème distribution pour laquelle jes probabilités d'appartenance 
aux intervalles correspondants ont des valeurs donnés p,, ..., p,. 

Si la distribution hypothétique dépend du paramètre inconnu 8 
à s dimensions que l’on estime à partir des mêmes résultats des épreu- 
ves, alors on peut utiliser le théorème suivant que l’on démontre par 
une généralisation évidente des raisonnements du point 3.3: si l’on 
utilise les estimations asymptotiquement efficaces et asymptotiquement 
normales du paramètre O0 à partir d'un échantillon groupé global, alors 
la variable aléatoire 


N r à 

Fr Puy — P,)° 

FES y D Cure (39) 
u=1 v=1Î 


suit asymptotiquement une distribution du khi-deux à N (r — 1) —s 
degrés de liberté. Ce théorème permet de vérifier l'hypothèse de l’iden- 
tité de distribution dans plusieurs séries d'épreuves en estimant simul- 
tanément leurs paramètres. 
On peut choisir en particulier en qualité de paramètres inconnus 
de la distribution dans de tels problèmes les probabilités p;, . .. 
ss Pr-33 Pr = 1 —Pi—...—p,. Dans ce cas, s = r — 1 et 
en qualite d’estimations P, des probabilités p,, il convient de choisir 
les fréquences correspondantes calculées sur l'échantillon global: 


N r 
1 CS 
Py=— DonPu (v=1,...,r), D Ps. (40) 
u=1 v=! 


La variable Z, définie par la formule (39) possède alors, dans ce cas, 
k=N(r—1)—{(r—1) = (N — 1) (r — 1) degrés de liberté. On 
peut, en particulier, utiliser ce test pour vérifier l'hypothèse d'iden- 
tité des distributions discrètes. 

Dans le cas particulier, où r = 2, il en découle un test pour véri- 
fier l'hypothèse de la coïncidence des probabilités d’un événement 
au cours de plusieurs séries d'épreuves. En posant dans (39) et (40) 


Pa 


N 
PS 4 PS # nm 
P=B=L ST nb Pr=t—P=0, 
p=i 
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nous obtenons 


L2= nn Car - 
pe PQ 
Cette variable suit asymptotiquement une distribution du khi-deux 
à N — 1 degrés de liberté. On peut vérifier, à l’aide de cette variable 
Z, l'hypothèse de la coïncidence des probabilités de l'événement qui 
nous intéresse au cours de plusieurs séries d'épreuves. 

Dans le cas d’une variable aléatoire observée À scalaire dont la 
fonction de répartition est continue, pour vérifier l'hypothèse de la 
coïncidence des distributions dans les deux séries, on peut également 
utiliser le test de N. Smirnov, analogue au test de Kolmogorov [98]. 


(41) 


Soient F', (x) et F, (x) les fonctions de répartition empiriques de la 
variable observée au cours des deux séries d'épreuves, comportant 
respectivement #, et n. épreuves. N. Smirnov a montré que si la 
fonction de répartition de la variable observée X est continue alors 
la variable 


U=y/ te max | Ês (2) — Ês (2) | (42) 


suit la même distribution limite de Kolmogorov quand n;,, nr; — oo 
que chacune des variables V2, max | F, (z)—F(x) |et V ne max X 


x|Ë 2 (x) — F (x) |. Cela permet de vérifier l'hypothèse de coïnci- 
dence des fonctions de répartition dans deux séries d'épreuves à 
l’aide de la fonction de répartition limite de Kolmogorov Æ (u) *). 


$ 4. Méthode de simulation aléatoire 


4.1. Problèmes de la simulation aléatoire. Souvent, l’étude expé- 
rimentale directe des phénomènes aléatoires complexes exige une 
dépense considérable en moyens et en temps, et même s'avère parfois 
rigoureusement impossible. Par exemple, l'étude expérimentale du 
fonctionnement d’un système complexe est impossible tant que le 
système n’a pas été créé et fabriqué. Or, il est nécessaire, dès le 
stade de l'établissement du projet du système, d'étudier toutes ses 
propriétés principales, en particulier l’efficacité de son fonctionne- 
ment, en tenant compte de toutes les perturbations aléatoires qui 
l'affectent. En pareil cas, on a recours à la simulation aléatoire des 
phénomènes étudiés. Sous sa forme la plus simple, la simulation 
aléatoire est appliquée depuis fort longtemps pour la résolution de 
divers problèmes. La technique moderne de calcul nous permet au- 
jourd’hui d'imiter pratiquement, sans aucune limitation, les phé- 


*) A cette fin, on dispose, dans [94], du programme KOLM2 utilisant, 
pour calculer X (u), le sous-programme SMIRN. 
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nomènes et les processus les plus compliqués. Cela a conduit à la 
création et au développement de la méfhode de simulation aléatoire 
en tant que méthode scientifique d'études permettant de combiner 
les calculs théoriques avec imitation des diverses expériences, et 
partiellement avec des expériences naturelles sur certains éléments 
des systèmes étudiés *). 

La méthode de simulation aléatoire est basée sur la simulation 
(l’imitation) du phénomène étudié sur ordinateur à l’aide de dépen- 
dances théoriques par modélisation des facteurs aléatoires les plus 
simples (primaires) ayant une influence directe sur son déroulement 
et sur les traitements statistiques des résultats obtenus. 

La méthode de simulation aléatoire s’est avérée également fruc- 
tueuse pour la résolution de divers problèmes mathématiques, non 
liés à la théorie des probabilités, par exemple pour le calcul des inté- 
grales, particulièrement des intégrales multiples, pour la résolution 
de certaines équations, etc. L'application de cette méthode à de tels 
problèmes est basée sur la modélisation d’un phénomène aléatoire 
tel que ses caractéristiques probabilistes soient les variables re- 
cherchées. 

La base de la méthode de simulation aléatoire est la modélisation 
des variables aléatoires de lois de distribution données et la mode- 
lisation des événements associés à des probabilités données. 

4.2. Modélisation des variables aléatoires. Considérons tout 
d’abord les procédés de modélisation des variables aléatoires scalai- 
res. En vertu des résultats du point 5.2.3, il suffit, pour modéliser 
une variable aléatoire À dont la fonction de répartition F (x) est 
quelconque, de savoir modéliser une variable aléatoire Ÿ, uniformé- 
ment distribuée sur l’intervalle [0, 1]. Après avoir obtenu la réalisa- 
tion y de la variable Ÿ’, nous trouvons la réalisation correspondante 
x de la variable X à l’aide de la formule x = F- (y). 

Pour obtenir les réalisations de variables aléatoires uniformément 
distribuées, on utilise deux principes : physique et algorithmique. 

Le principe physique est basé sur l'utilisation des phénomènes 
physiques, par exemple des flux de particules, émis par des matières 
radioactives, ou les bruits de fond des dispositifs électroniques. En 
agissant sur des dispositifs enregistreurs adéquats, le phénomène 
physique utilisé génère une suite de variables aléatoires indépendantes 
V,, Vs, ..., dont chacune prend la valeur 0 ou {1 avec une proba- 
bilité 0,5. Cette suite peut être considérée comme une suite de nom- 
bres binaires représentant la valeur de la variable aléatoire 


Y=V2"1+LV,2-24,...LV,2R+ ... 
On peut démontrer que, quand la longueur de cette suite est illi- 
mitée, la variable Ÿ est uniformément distribuée dans l'intervalle 


*) La méthode de simulation aléatoire est souvent appelée, particulière- 
ment dans la littérature occidentale, méthode de Monte-Carlo. 
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[0, 1] *). Les réalisations de cette variable aléatoire Ÿ sont introdui- 
tes dans le calculateur sous forme de nombres binaires comportant 
le même nombre de signes que traite l’ordinateur. 

Pour obtenir des réalisations d'une variable aléatoire uniformé- 
ment distribuée par la voie algorithmique, on introduit dans le cal- 
culateur un nombre binaire arbitraire occupant toutes ou une partie 
des positions d’une certaine cellule de la mémoire opérationnelle. 
On effectue alors sur ce nombre un certain nombre d'opérations 
élémentaires à l’aide d’un programme spécial. La suite de nombres 
binaires ainsi obtenue ne sera pas aléatoire, évidemment. Toutefois, 
dans une série suffisamment longue de cette suite, tous les nombres 
comportant un nombre donné de signes binaires se rencontreront pra- 
tiquement avec la mème fréquence. C’est pourquoi un nombre pris 
au hasard dans cette suite peut être considéré comme la réalisation 
d'une variable aléatoire uniformément distribuée sur l'intervalle 
10,1]. C'est cette propriété de ces suites qui a déterminé leur appella- 
tion de nombres pseudo-aléatoires. Il existe de nombreux algorithmes et 
des programmes de génération des nombres pseudo-aléatoires [100] **). 

À la différence des suites générées par des sources physiques des 
phénomènes aléatoires, la même suite de nombres pseudo-aléatoires 
peut se répéter indéfiniment. C'est pourquoi la même réalisation d’une 
variable aléatoire peut être utilisée de nombreuses fois. Cela pré- 
sente un certain avantage lors de la résolution de divers problèmes 
pratiques. 

Une variable aléatoire normalement distribuée peut, en vertu du 
théorème limite du point 5.4.1. être modélisée en tant que somme 
des variables aléatoires indépendantes distribuées suivant la même 
loi. En particulier, on peut prendre la somme de variables aléatoires 
indépendantes }’,, ..., Ÿ, uniformément distribuées sur l’inter- 
valle [0, 1]. En vertu du théorème limite et des résultats de l’exem- 
ple 3.3, la variable aléatoire 


Ÿ (Yi—n2) 


X = =. ———— 
V n/12 


pour une valeur suffisamment grande de x est approximativement 
normalement distribuée NV (0, 1). Dans ce cas, la variable aléatoire 


Z = m, + XV D, sera approximativement distribuée N (m,, D.) **#. 


*) Cf. par exemple [11, 30]. En réalité, du fait de l'absence d’une indé- 
pendance rigoureuse des variables V,, V2, . .., et du fait que les probabilités 
des valeurs 0 et 1 des variables V, ne sont pas égales à 1/2, la distribution de la 
variable Y ne s'avère qu'approximativement uniforme. 

**) Pour générer une suite de nombres psudo-aléatoires uniformément dis- 
tribués sur l'intervalle [0, 1], on dispose, dans [94], du programme RANDU. 

***) Pour la modélisation d'une variable aléatoire normalement distribuée 
par cette méthode, on dispose dans [94] du programme GAUSS dans lequel on a 
adopté n = 12. 
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La modélisation d’une variable, aléatoire vectorielle se ramène 
à la modélisation successive de ses coordonnées. Dans ce cas, la pre- 
mière coordonnée est modélisée conformément à sa distribution non 
conditionnelle et chaque coordonnée successive conformément à la 
distribution conditionnelle pour les valeurs obtenues de toutes les 
coordonnées précédentes. Pour modéliser un vecteur aléatoire X 
normalement distribué V (m., K,), on peut utiliser n'importe quel- 
le décomposition canonique de ce vecteur : 


X =m, + > V Zn: 
p=i 


où r est le rang de la matrice Æ,. Après avoir choisi les coordonnées 
du vecteur de telle sorte que les variances de la variable V, soient 
égales à 1 (point 3.4.4), nous ramenons le problème à la modélisation 
de variables aléatoires indépendantes V,, ..., V, normalement 
distribuées W (0, 1). 

4.3. Modélisation des événements. Pour modéliser l'événement À 
associé à la probabilité p, il suffit de modéliser une variable aléa- 
toire Ÿ uniformément distribuée dans l'intervalle [0, 1]. Quand 
cette variable tombe dans l'intervalle [0, p], on estime que l’évé- 
nement À est réalisé et quand la variable tombe dans l'intervalle 
(p, 1], on estime que À n’a pas été réalisé. 

Exactement de la même façon pour la modélisation d’un groupe 
complet d'événements incompatibles À4,, ..., À, de probabilités 
Pis + ++ PP +...-+p, = 1,il suffit de modéliser une variable 
aléatoire Ÿ uniformément distribuée dans l'intervalle [0, 1] et de 
considérer que À, est réalisé si Ÿ tombe dans l'intervalle [0, p.l, 
que À, est réalisé si Ÿ appartient à l'intervalle (p, p, + pl, etc., 
que À, est réalisé quand Ÿ appartient à l'intervalle (p, + ... <- 
+ Pr-1 11. 

4.4. Applications pratiques de la méthode. L'application de la 
méthode de simulation aléatoire pour la résolution des problèmes 
probabilistes se ramène à la modélisation directe réitérée sur ordi- 
nateur du phénomène étudié, incluant la modélisation des phéno- 
mènes et des événements aléatoires dont les caractéristiques proba- 
bilistes sont connues, suivie de l'estimation statistique des caracté- 
ristiques probabilistes des résultats obtenus. 

Ainsi, lors de l'établissement du projet d’un système technique 
complexe, on réitère usuellement un grand nombre de fois le fonc- 
tionnement du système et des perturbations qui l'affectent (signaux 
d'entrée), dont les caractéristiques probabilistes sont supposées 
connues. La modélisation fournit alors diverses réalisations (échan- 
tillons) de toutes les variables qui caractérisent le fonctionnement 
du système (signaux de sortie). Le traitement statistique des données 
obtenues donne des estimations des caractéristiques probabilistes 


21-0244 
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des variables définissant la qualité du fonctionnement du système 
(en règle générale, sa précision). Après avoir effectué cette simulation 
aléatoire pour diverses variantes et diverses valeurs des paramètres 
du système, on peut choisir, pour le traitement ultérieur et la réa- 
lisation, la variante qui satisfait, de la meilleure manière, les exi- 
gences posées. 

Le grand avantage de la méthode de simulation aléatoire est la 
possibilité d'inclure, dans le processus de modélisation, certains 
éléments réels du système, y compris ceux qui ne sont pas suscep- 
tibles d'une description mathématique, par exemple l'homme, ou une 
collectivité d'hommes participant au fonctionnement du système. 
Le principal défaut de la méthode de simulation aléatoire est la né- 
cessité de réitérer un grand nombre de fois la modélisation du phé- 
nomène aléatoire pour obtenir un échantillon à partir duquel on peut 
estimer les caractéristiques statistiques indispensables avec une pré- 
cision donnée (échantillon représentatif). 

4,5. Précision de la méthode. l’our avoir une idée de la dépendance 
lo la précision de la méthode de simulation aléatoire du nombre d'’é- 
preuves, utilisons les résultats du point 6.4.2, où l’on avait montré 
que la précision des estimations 


n n 
# ne 4 a 4 2 
My=y=— un Di À (x —y) 
Res i ke=1 


de l'espérance mathématique et de la variance d’une variable aléas 
toire Ÿ normalement distribuée était caractérisée par les écarts-type- 


o 
y VV 2 
On ———— OC: —0C a 
W Vñn : D y n=1" 


y 
où ©, est l’écart-type de la variable Y *). Dans le tableau suivant, 
on a montré la dépendance de la précision relative des estimations de 
l'espérance mathématique et de la variance en fonction des nombres 
d'épreuves n. 


Erreur relative, 
en % 
10 20 30 A) 60 80 100 150 200 


EL -100 31,6 |122,4 | 18,2 | 45,8 | 42,9 | 41,2 | 10 
y 


D 
2 100 | 47,2 | 32,4 | 26,3 | 22,6 | 18,4 | 15,9 | 14,2 | 11,6 | 10,0 
Y 


*) La formule pour o> est vraie quelle que soit la distribution de la va- 
riable Y (exemple 3.12). 
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Ce tableau montre que l'espérance mathématique peut être esti- 
mée avec un écart-type de 16-19 % et la variance avec un écart-type 
de 23-27 % quand n — 30-40. On recommande pratiquement de 
choisir n > 100, ce qui assure une estimation de l'espérance mathé- 
matique et de la variance associée à un écart-type de 10 % et 15 % 
respectivement. 

4.6. Résolution des problèmes probabilistes. Le problème pro- 

babiliste le plus simple que l'on peut résoudre à l’aide de la méthode 
de simulation aléatoire est celui du calcul de la probabilité d'apparte- 
nance d'une variable aléatoire, particulièrement multidimension- 
nelle, à un domaine donné Z. On sait que le calcul direct de l’inté- 
grale (2.9) est impossible et que le calcul approché par intégration 
numérique exige des calculs très laborieux. En modélisant une va- 
riable aléatoire À associée à une densité de probabilité donnée f (x), 
on peut adopter, en qualité d'estimation de la probabilité P (X € B), 
la fréquence d'appartenance de À au domaine B. Le volume des cal- 
culs nécessaire pour cela sera généralement bien inférieur à celui que 
nécessite l'intégration numérique. 
.. Exactement de la même façon, on peut estimer les moments de. 
diverses fonctions de la variable aléatoire À comme les moyennes 
empiriques des fonctions correspondantes, obtenues par simulation 
aléatoire de la variable À. 

4.7. Calcul des intégrales. Pour illustrer l'application de Ja 
méthode de simulation aléatoire à la résolution de problèmes mathé- 
matiques n’ayant pas de contenu probabiliste, considérons le problème 
du calcul de l'intégrale 


1= | (x dz. 


B 


Si le domaine BP est borné, on peut l’inclure dans un certain paral- 
lélépipède rectangle R dont les côtés sont parallèles aux axes de coor- 
données. Représentons l'intégrale Z sous la forme 


1 | g (x) dz=— | g(z)v(R) dr = 
B B 


1 
= g (zx) 13 (xz)v(R) dx, 
où v (R) est le volume du parallélépipède R et 1, (x) la variable 
indicatrice du domaine B, c'est-à-dire une fonction égale à 1 si 
zE BetOsixzé B. Cette dernière intégrale peut être considérée com- 
me l'espérance mathématique de la fonction q (À) = g (X) 13 (X) x 
X v(R) dela variable aléatoire À; uniformément distribuée dans le 
parallélépipède À. En effectuant la simulation aléatoire de cette va- 


riable aléatoire X, on peut obtenir une estimation / de l'intégrale 7 
21% 
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comme la moyenne empirique de la variable aléatoire œ (X) = 
= g (À) 15 (À) v (R): 


= » (R) ÿ £ (xs) 1 (ri). 
i=1 


n 


Quand le domaine B est quelconque, on peut choisir une densité 
de probabilité f (x) arbitraire ne s'annulant pas dans B, par exemple 
une distribution normale non dégénérée, et représenter l'intégrale 1 
sous la forme 


: __{ «bi _ g (2) 13 (2) 
= | gt dr | HE f (mdr = | LB j (x) dx. 
B B 00 
Cette dernière intégrale peut être considérée comme l'espérance ma- 
thématique de la fonction q (À) = g (X) 1, (X})/f (X) de la variable 
aléatoire À de densité de probabilité f (x). En effectuant la simula- 
tion aléatoire de cette variable aléatoire X, on peut obtenir l’esti- 


mation / de l'intégrale 7 comme la moyenne empirique de la variable 


p (À) = g (À) 1» (X)/f (À): 


> 1 © et n(ri) 
ir à HET 


Pour donner une idée des avantages de la méthode de simulation 
aléatoire par ravport à la méthode d'intégration numérique, suppo- 
sons que pour le calcul de l'intégrale r-uple Z par les méthodes d'’inté- 
gration numérique il faille définir dans le domaine B, m’ points de 
grille et, pour le calcul d’une seule valeur de la fonction à intégrer 
g (x), un nombre d'opérations sr. Dans ce cas, pour le calcul de Z 
par la méthode d'intégration numérique, il faudra effectuer srm’ 
opérations. Pour l'application de la méthode de simulation aléa- 
toire au calcul de Z, il faudra sr opérations, où n désigne le nombre 
d'épreuves. Par conséquent, le gain relatif en temps machine lors de 
l'application de la méthode de simulation aléatoire est caractérisé 
par le rapport m'/n. Si l’on considère que le nombre minimal de 
points de grille nécessaires sur chaque axe de coordonnée est m = 5, 
alors, pour r — 100, la méthode de simulation aléatoire donne une 
économie notable en temps machine dès que r = 4 + 5. Quand la 
dimension r caractérisant la multiplicité de l'intégrale augmente, 
l'avantage de la méthode de simulation aléatoire augmente comme 
une fonction exponentielle. 
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MODÈLES STATISTIQUES, 1 


$ 1. Modèles mathématiques 


1.1. Modèles théoriques et statistiques. Il est nécessaire, avant 
tout, pour l'application des méthodes mathématiques, d'établir les 
relations entre les grandeurs caractérisant les phénomènes considé- 
rés. Chaque relation de ce genre représente un modèle mathématique 
du phénomène donné. Par exemple, les lois de Newton, en meca- 
nique, et toute la mécanique classique élaborée à partir de ces lois, 
représentent un ensemble de modèles des phénomènes mécaniques. 
Les équations de Maxwell, en physique, représentent un modèle 
mathématique des phénomènes électrodynamiques. 

En théorie de la gestion, on étudie divers systèmes dont le com- 
portement est décrit par un ensemble de grandeurs, dont certaines 
ont un caractère d’influences externes sur le système, et sont appelées 
signaux d'entrée, alors que les autres caractérisent le fonctionnement 
du système et définissent son influence sur d’autres systèmes et sont 
appelées ses signaux de sortie. La dépendance des signaux de sortie 
du système, de ses signaux d'entrée, appliquée à l'étude du système 
et de ses interactions avec d’autres systèmes, représente un modèle 
mathématique de ce système. 

Dans de nombreux cas, on peut construire le modèle mathéma- 
tique par une voie purement mathématique à l’aide des lois connues 
de la mécanique, de la physique et d’autres disciplines, en utilisant 
des relations quantitatives. Par exemple, on peut construire mathé- 
matiquement différents modèles d'objets volants en utilisant les 
lois de la mécanique. 

Toutefois, il existe également des systèmes pour lesquels il est, 
en principe, impossible d'élaborer un modèle par une voie purement 
mathématique. Des exemples de systèmes de ce genre peuvent étre 
fournis par l’homme ou par une collectivité d'êtres humains effectuant 
des fonctions déterminées, une usine, un secteur de production, un 
secteur d'économie, etc. Le progrès actuel scientifico-technique et 
les applications toujours croissantes des méthodes mathématiques 
exigent la création de modèles mathématiques pour ce genre de sys- 
tèmes également. Ils sont nécessaires en particulier à la résolution 
des problèmes modernes de gestion. 
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L'élaboration des modèles de systèmes complexes nécessite le 
recours à une étude expérimentale de ces systèmes ou des sous-systè- 
mes qui les composent et la construction des modèles correspondants 
par le traitement statistique des données obtenues. 

Nous appellerons modèles statistiques les modèles obtenus à partir 
du traitement statistique des résultats de l'étude expérimentale du 
fonctionnement des systèmes. Les méthodes d'élaboration des modi- 
les statistiques constituent une branche importante de la statistique 
mathématique moderne. 

On appelle souvent identification d’un système ou d'un processus 
l'élaboration d'un modèle mathématique d’un système ou d’un pro- 
cessus réel. Il convient de remarquer que cette appellation ne reflète 
pas exactement la nature du problème donné car aucun modéle ne 
peut correspondre identiquement à un phénomène réel. 

1.2. Modèles déterministes et stochastiques. Il découle de ce qui 
vient d’être dit que le problème d'élaboration du modèle d'un phé- 
nomène, d'un processus ou d’un système consiste à trouver des rela- 
tions entre les grandeurs décrivant le déroulement d’un phénomène, 
des processus donnés, ou le fonctionnement d'un système donné. 
Si ces relations permettent de déterminer univoquement, à partir 
des valeurs de certaines variables, la valeur des autres, alors le 
modèle qu'elles décrivent est appelé déferministe. Si ces relations 
déterminent, à partir de certaines variables, les autres variables 
comme des variables aléatoires, alors le modèle qu'elles décrivent 
est appelée siochastique. 

Les modèles théoriques élaborés mathématiquement à partir des 
lois primaires, de même que les modèles statistiques obtenus dans 
le traitement statistique des données d'observations, peuvent être 
déterministes ou stochastiques. Ainsi, la dépendance Y —  (X) 
établie à partir des résultats des observations des variables aléatoires 
X et Ÿ par la méthode des moindres carrés représente un modèle 
déterministe. Si l’on tient compte des écarts aléatoires des points 
expérimentaux de la courbe y = œ (x), observés lors des épreuves, 
et si l’on écrit la dépendance Y de À sous la forme 


Y = (4) +27, 


où Z est une certaine variable aléatoire, alors on obtient un modele 
stochastique. Les variables À et Ÿ peuvent alors être aussi bien 
scalaires que vectorielles. La fonction œ@ (x) peut être aussi bien une 
combinaison linéaire de fonctions données qu'une fonction non liné- 
aire dont les paramètres sont déterminés par la méthode des moindres 
carrés. Le nombre et la forme des fonctions figurant dans la com- 
binaison linéaire, ainsi que la forme de la fonction non linéaire 
p (x) et le nombre de paramètres qui la déterminent, peuvent être 
arbitraires. 
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Le simple exemple que nous avons rapporté montre qu’à un même 
phénomène peuvent correspondre différents modèles. Le problème 
de l’élaboration d'un modèle du système inclut également le choix 
de la forme adéquate de ce modèle ainsi que son degré raisonnable 
de complexité, compatible avec les données expérimentales. 

1.3. Rôle des modèles mathématiques. Les modèles mathémati- 
ques sont un instrument puissant de la connaissance du monde extt- 
rieur. [ls sont appliqués pour différents calculs, établissement de 
projets des systèmes, gestion des processus et des systèmes, prévi- 
sions de différents phénomènes, etc. Mathématiquement, ces modèles 
permettent de découvrir et de prévoir de nouvelles lois et faits scienti- 
fiques. 

L'application des modèles mathématiques se ramène principale- 
ment à déterminer les valeurs de certaines grandeurs à partir des 
valeurs connues d’autres grandeurs. Les valeurs de ces dernières 
peuvent être obtenues en résultat d'observations ou être données 
à partir de certaines considérations quelconques. Par exemple, en 
mesurant une certaine grandeur, nous n'observons que le résultat des 
mesures à partir desquelles on demande de déterminer la valeur in- 
trinsèque de la grandeur mesurée. Lors de la prévision du temps à 
partir des valeurs des paramètres mesurés de l’état de l'atmosphère 
en un certain point de l’espace au cours d’une certaine période de 
temps, on prévoit leurs valeurs en d’autres points cet pour une autre 
période de temps. Lors de l’application des méthodes mathématiques 
dans la pratique médicale à partir des résultats fournis par l’examen 
du patient, on doit résoudre le problème du diagnostic de la maladie 
dont il souffre et déterminer les méthodes adéquates de traitement. 
Des problèmes analogues de reconnaissance apparaissent dans de 
nombreux domaines de la science ou de la technique. 

L'état actuel et le développement de la technique de calcul per- 
mettent d'automatiser certaines formes du processus de l’activité 
intellectuelle de l’homme, c’est-à-dire de commencer à résoudre les 
problèmes de l'intelligence artificielle. Cela est particulièrement 
important pour l'élaboration de dispositifs automatiques, de robots 
destinés à exécuter des travaux dans des conditions où l’homme ne 
peut survivre. Ces robots doivent concerter leurs actions avec des 
conditions variables et des circonstances apparaissant nouvellement 
et, par conséquent, reconnaître les situations et prendre des décisions 
en conséquence. Il est non moins important, pour le progrès scienti- 
fique et technique moderne, de résoudre les problèmes de la création 
de systèmes automatiques lisant et analysant des textes écrits ainsi 
que des systèmes analysant la voix humaine. Ce genre de systèmes 
doit reconnaître les lettres manuscrites, des chiffres ou d’autres ima- 
ges ou, respectivement, des sons de la voix humaine (des phonèmes) 
et déterminer leur contenu logique. En réunissant les algorithmes 
de reconnaissance de la parole avec les algorithmes de traduction 
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d'une langue dans une autre, on pourrait créer un système automa- 
tique pour la traduction synchrone de la parole en plusieurs langues. 
Enfin, lors de l’utilisation de l’ordinateur pour l'apprentissage des 
hommes, on a besoin également d’algorithmes de reconnaissance 
automatique du caractère des erreurs commises par les élèves et de 
déterminer le niveau de leur connaissance. L'homme, dans son arcti- 
vité pratique quotidienne, résout divers types de problèmes de re- 
connaissance. Pour créer des systèmes automatiques de reconnais- 
sance, il est indispensable de disposer de modèles adéquats de re- 
connaissance des processus. 

La pénétration toujours plus large des méthodes mathématiques 
dans la sphère de la gestion pose le problème de la création des modè- 
les pour le processus de prise de décision également. Le dirigeant de 
n'importe quelle organisation doit, à partir de l’information obtenue 
(que l’on peut toujours représenter sous forme d’un ensemble de va- 
leurs de certaines grandeurs), prendre une décision (que l’on peut 
également représenter sous forme d’un ensemble de valeurs de cer- 
taines grandeurs). La technique moderne de calcul peut aider les di- 
rigeants à prendre la décision la plus fondée scientifiquement et, par 
cela même, à élever l'efficacité de la gestion, mais, pour cela, ils 
doivent disposer de modèles correspondants des processus d'analyse 
logique et de prise de décision. 

Passons maintenant à l'étude des méthodes d'élaboration des 
modèles statistiques. Dans cette étude, nous nous limiterons unique- 
ment aux modèles qui sont décrits par des relations entre vecteurs de 
dimensions finies. On compte, en particulier, au nombre de modèles 
de ce genre, tous les systèmes discrets dont les signaux d'entrée 
et de sortie n’agissent qu'à des instants discrets du temps. Pour 
l'élaboration de modèles statistiques plus compliqués, en particu- 
lier de modèles dont les signaux d'entrée et de sortie sont des fonctions 
continues des arguments variables, il faut appliquer la théorie des 
fonctions aléatoires, une branche de la théorie des probabilités qui 
se situe en dehors du cadre de ce livre *). 


$ 2. Modèles de régression 


2.1. La régression comme estimation de la dépendance d’une 
variable en fonction d’une autre variable aléatoire. Con- 
sidérons le problème de la détermination de la valeur d'une variable 
aléatoire à partir de la valeur donnée d’une autre variable aléatoire. 
Soit Ÿ une variable aléatoire dont on doit déterminer les valeurs, x 
une valeur connue qui peut être la valeur observée d’une certaine 
variable aléatoire X ou une valeur donnée d’une certaine variable. 


*) Ces questions seront étudiées dans le livre Fonctions aléatoires que l’au- 
teur prépare. 
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Aussi bien x que Ÿ peuvent être des grandeurs scalaires ou vectoriel- 
les. La distribution de la variable aléatoire Ÿ, dans le cas général, 
dépend de x. 

Le problème posé représente, du point du vue de la statistique 
mathématique, un problème d'estimation des valeurs d’une variable 
aléatoire non observable Ÿ à partir de la valeur donnée de la gran- 
deur z (en particulier, à partir de la valeur x obtenue par observation 
de la variable aléatoire X). 

Soit y = y (x) l'estimation de la valeur de la variable Ÿ pour 


» 


un x donné. L'erreur associée à cette estimation y — Ÿ représente 
une variable aléatoire. Il est rationnel, conformément au point 6.2.1, 


de caractériser la précision de l'estimation y par l’erreur quadratique 
moyenne pour cette valeur x: 


et) =MlIy@—YEIzl (1) 
Considérons tout d'abord le cas d’une variable scalaire Ÿ. Il 


découle de la formule (3.31) que l'erreur quadratique moyenne de 


l'estimation y sera minimale si en qualité de y on adopte l'espérance 
mathématique conditionnelle de la variable aléatoire Ÿ pour un zx 
donné : 


y (x) = m, (x) = MY | xl. (2) 


Cette formule définit la meilleure estimation de la variable Y pour 
un x donné. 


D:ns le cas d’une variable vectorielle Y = [Y, ... Y,,IT 
e()=MIY—Y Éla= À MID YR 121 (3) 


Il en découle que la quantité € (x) est minimale si et seulement si 
chaque terme de (3) prend une valeur minimale. Par conséquent, la 
formule (2) détermine la meilleure estimation, du point de vue du 
minimum de la quantité €, pour chaque zx, pour une variable aléatoire 
vectorielle Y également. 


La dépendance de l'estimation y de la variable Y en fonction de 
x, définie par la formule (2), représente la régression de Y sur x 
(point 4.3.2). Ainsi, l'estimation optimale de la dépendance de Y en 
jonction de x est la régression de Ÿ sur x. En particulier, la meilleure 
prévision de la variable Y pour une valeur donnée de x sera la prévision 
par régression. 

Le modèle défini par la régression de Ÿ sur x est appelé modèle 
de régression. Les modèles de régression sont largement utilisés 
pour la description du fonctionnement de systèmes très divers. 
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2.2. Régressions en moyenne quadratique de différentes classes. 
L'estimation par régression n’est possible que dans le cas où la ré- 
gression est connue. Si la régression n'est pas connue ou si la dépen- 
dance qu'elle implique est trop complexe pour être pratiquement 
réalisée, alors on doit rechercher une estimation de la dépendance de 
Y en fonction de x dans une certaine classe limitée de fonctions. 
Dans ce cas, on ne pourra pas assurer le minimum de l'erreur quadra- 
tique moyenne € (x) pour toute valeur de zx. C’est pourquoi on recher- 
che habituellement l'estimation de la dépendance de Y en fonction 
de x dans une classe donnée de fonctions à partir de la condition de 
minimisation de la valeur moyenne de la quantité € (x) dans le do- 
maine de variation de x qui nous intéresse. 

Supposons tout d’abord que x représente la valeur d’une certaine 
variable aléatoire X. Il est alors naturel de considérer l’erreur qua- 
dratique moyenne comme une fonction de la variable aléatoire X 
et d'adopter pour sa valeur moyenne, dans le domaine de variation 


de x, son espérance mathématique. Soit y (x) l'estimation recherchée 
de la dépendance de Ÿ en fonction de x dans une certaine classe de 
fonctions Y. En considérant cette estimation comme une fonction 


y (X) de la variable aléatoire X, nous obtenons, en vertu de (1), la 
valeur de l'erreur quadratique moyenne de l'estimation en fonction 
de la variable aléatoire X: 


e(X)=MIly(X)—Y E]XI 


En prenant l'espérance mathématique de cette quantité et en utili- 
sant la formule de l’espérance mathématique totale (4.34), nous 
obtenons la valeur moyenne de la quantité €: 


e=MIly(X)—YF. (4) 


Supposons maintenant que zx soit une variable non aléatoire pre 
nant ses valeurs dans un certain domaine B. On adoptera alors, en 
qualité de valeur moyenne de la quantité € (x), l’expression 


Le ( pl) e (x) ds, 
B 
où p (x) est une certaine fonction de pondération possédant la pro- 
priété (de même que toute fonction de pondération lors de la défi- 
nition d'une moyenne pondérée) 


| p(z)dz= 1. 

B 
Dans le cas particulier où toutes les valeurs de x dans le domaine B 
sont associées à un même poids, on a p (x) = 1/v (B), où v (B) est le 
volume du domaine B. Il est évident que ce cas se ramène au cas pré- 
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cédent si l’on considère x comme la'valeur d’une variable aléatoire X, 
dont la densité de probabilité est égale à p (x) quand zx € B et 0 
quand æé B. On peut, par conséquent, considérer la formule (4) 
comme une formule générale pour trouver la valeur moyenne de la 
quantité € dans le domaine de variation de x qui nous intéresse. 
Ainsi, la meilleure estimation de la dépendance Ÿ de zx dans 


une classe donnée de fonctions Ÿ est la fonction y (x) réalisant le 
minimum de l'espérance mathématique non conditionnelle du carré 
du module de l'erreur. 


L'estimation y (X) de la variable aléatoire Ÿ appartenant à une 
classe déterminée de fonctions W pour laquelle l'espérance mathé- 
matique du carré du module de l'erreur (l'erreur quadratique moy- 
enne) est minimum, est appelée régression en moyenne quadratique 
de Y sur x dans la classe W. En particulier, la fonction linéaire réa- 
lisant le minimum de l'erreur quadratique moyenne dans la classe 
des fonctions linéaires est appelée régression linéaire en moyenne qua- 
dratique de Y sur x. 

2.3. Estimations optimales. Montrons que la régression en moyen- 
ne quadratique dans la classe Y représente la meilleure approximation 
en moyenne quadratique de la régression m,, (x) — M [Y | x] dans cette 
classe de fonctions Y. 

D Remarquons qu’en vertu de (3.31), nous avons 


mn 


MIly(X)—Y PIX]= D MI yr(X)—Y» 2 X]= 


pæi 
= 2 1 mp (0) —Y 9 (PT XI 1 Up 0 — ms (À) 153 = 


=Ml|m,(X)—Y [21 X]+1y(X)—m, (X) [2 


En appliquant l'opérateur d'espérance mathématique à cette varia- 
ble aléatoire, nous obtenons, en vertu de la formule de l'espérance 
mathématique totale (4.34), l'expression suivante : 


e=MIy(X)—-YF=MIm(X)—YF+ 
+MIy(X—-m(X)F (5) 


Comme le premier terme du second membre ne dépend pas de la 


fonction y (X), il en découle que € atteint son minimum si et seule- 
ment si le second membre est minimum. < 


L'estimation y (x) de la régression my (x) = M{Y | x] minimi- 
sant l'erreur quadratique moyenne € dans la classe des fonctions W, 
sera appelée estimation optimale dans la classe Y. 
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11 découle de (5) que si la régression m, (x) est contenue dans la 
classe des fonctions Ÿ, dans laquelle on recherche l'estimation opti- 
male, en particulier si Ÿ coïncide avec l’ensemble de toutes les fonc- 
tions de la variable x, alors l'estimation optimale de la régression est 
la régression elle-même. 

La régression est l'unique estimation réalisant le minimum de 
l'espérance mathématique conditionnelle du carré du module de 
l'erreur pour chacune des valeurs de zx. 

2.4. Condition nécessaire et suffisante d’optimalité. Montrons 


que y (x) est l'estimation optimale dans la classe des fonctions Y si, 
pour toute fonction 4 (x) EY on a 


My (X) *[u(X)—Yl=tr MIy(X)—Ylp(X)* =0*) (6) 


D Soit 14 (x) une fonction arbitraire de la classe Y, y (x) l'esti- 
mation optimale de Ÿ dans la classe W. Si l’on adopte en qualité 
d'estimation de Ÿ la fonction # (X), nous aurons 


EMI Y(X)—Y{|2=M |y(X)—Y +%(X)—y(X) = 
= MIy(X)—Y2+MI]Y(X)—y(X) + 
+ M LA) — y (X)*] [y (X) — Y] + 
LM [y (X)*— Y4] Cp (X) — 9 (X). (7) 
Si la condition (6) est vérifiée pour toute fonction + (x) € Ÿ, alors 


elle est vérifiée également pour w (x) = y (x). Nous aurons dans ce 
cas 


M 1 (X)*— y (X)*] y (X)—Y]1= 0, 
M y (XY*— Y*] D (X) — y (A) = 
= M {bp (X)*— y (X)*] lv (À) — Y1= 0 
et (7) sera de la forme 
E=MIp(X)—YF-=MIy(X)—YE+ 
+ M lb (X) = ÿ (À) E 
Il en découle que € n’est minimum que si et seulement si v (x) = 
= y (x). Ainsi, la condition (6) est suffisante pour l’optimalité de 
l'estimation y (x). 
*) Le signe * signifie, comme d'habitude, la transposition de la matrice 
avec le remplacement de tous ses éléments par les nombres conjugués complexes 


correspondants. La première égalité (6) est vraie en vertu de la relation ab — 
— tr ba, valable pour toutes les matrices-colonnes (les vecteurs a et b). 
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Démontrons que si la classe des fonctions Y est un espace linéaire *), 
alors la condition (6) est nécessaire pour l'optimalité de l'estimation 


y (2) €Y. 
D Supposons qu'il existe une fonction 1, (x) € Ÿ pour laquelle 
‘On ait 


Mo (X) *[Y(X)—Yl=a#0. 
Définissons alors la fonction 


< aYo(x) 
VA =r O1 - 
Etant donné que Y est un espace linéaire, alors 1 (x) € Y. Calculons 
l'erreur quadratique moyenne € pour l'estimation 1 (x). Nous au- 
rons dans ce cas 


M HA) — OO = OT : 


M Lb (X)*— y (X)*] Ly (X) —Y1 = 


EE  — ù * 7) — _ ____lal 
TR OEM Vo A) TE ET 


M [y (X)*—Y*] lp (X)—y(X)] = 
= M Kh(X)* — y (X)*] [y (X)— Y] = 


= ee. 
M 1 Fo (XI? 


En portant ces expressions dans (7), nous obtenons 


== ) _ 2 — u À Nes 2 — 2 Le 

e=M | Y(X)—Y | Mly(X)—Y | MT Ÿ (X) E° 

*) L'ensemble Z est appelé espace linéaire ou vectoriel s'il vérifie les condi- 
tions suivantes: 

1) pour tout x, y € L est défini univoquement un élément z € L appelé 
somme de rety,z—=z+y; 

2) pour tout x € L et tout nombre « est défini univoquement un élément 
u € L appelé produit de x par le nombre «a, u = ax; 
l 3) Â existe dans L un élément O0 tel que x + 0 = x, Or = 0 pour tous 
es x € L: 

4) les opérations de somme et de produit par un nombre possèdent les 
propriétés suivantes: 


z+y=y+xz (commutativité) ; 
(+ y)+2=2+ (y +2), a (Br) — (af) x (associativité); 
a (x + y) = ar + ay, (« + BP) x = ar + Br  (distributivité). 


Suivant que l'opération de produit par un nombre est définie pour tous 
les nombres complexes ou seulement pour les nombres réels, Z est appelé espace 
linéaire complexe ou, respectivement, espace linéaire réel [42]. 
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11 en découle que l'estimation (x) est meilleure que l'estimation 
y (x). Ainsi, s’il existe une fonction 1, (x) € Y pour laquelle la con- 


dition (6) n'est pas vérifiée, alors l'estimation y (x) ne peut être 
optimale. Par conséquent, la réalisation de la condition (6) pour tous 
les 1 (x) € W est nécessaire. 

2.5. Modèles de régression linéaire. Trouvons l'estimation opti- 


male y (x) de la variable Y dans la classe des fonctions linéaires, c'est- 
à-dire la régression linéaire en moyenne quadratique de Ÿ sur X. 


En portant dans (6) y (X) = gX, W(X) = hX, nous obtenons 
tr M (gX — Y) X*R* = 0, 


ou, en vertu de la relation MXX* = T,, MYX* = T7, ($ 3.3), 


tr (gl — V3) À = 0. (8) 
Cette égalité est vérifiée pour toute matrice À si et seulement si 
gTx — l'y (9) 


En effet, si certains éléments de la matrice à = gl, — l,, sont 
différents de O0, alors, en posant À — &, nous obtenons tr (gl, — 
— F,,) k* = tr aa* = 0, si un élément au moins de la matrice œ 
est différent de O0 *). 


Comme la classe des fonctions linéaires est un espace linéaire, 
alors la condition (8), et par conséquent (9), est nécessaire et suffi- 
sante pour l'optimalité de l'estimation y (x) — gz. Ainsi, la ma- 
trice g correspondant à l'estimation linéaire optimale est définie par 
l'équation (9). 

Remarquons que l'équation (9) peut être mise sous la forme 


MIY — YIX*=0, (10) 


où Ÿ — gX. Il découle également de (8) que pour toute partition du 


vecteur X en blocs, X7 — [XT, ..., X2£], l'estimation optimale Ÿ 
vérifie également les conditions 


MF—Y)XÉ=0 (k—=1,..., N). (11) 


En effet, en partageant la matrice k en blocs correspondants k — 
— [h,...h,let en posant h; — 0 pour i  k, nous établirons (11) 


*) La trace de la matrice aa* est égale à la somme des carrés des modules 
de tous les éléments de la matrice «: 


m 


m m 
traa*= > (> Cpqapq) = > | &pq l*. 
pi q=i P, q=i 
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à partir de (8) exactement de la «même façon que nous avons obte- 
nu (9). 


L'estimation y (x) — gr, définie par l'équation (9), est biaisée 


dans le cas général My (X) — M (gX) MY. Pour éliminer ce 
biais, il suffit d'ajouter à gx le terme constant correspondant. 


> En posant dans (6) y(X) = gX + a, (X) = kX + b, 
nous aurons, en vertu des relations 
Pk= ÆA,+r mme, Vs = Kys + myms, (12) 
l'expression 
tr (GK, — K,s) R* + (gm, — m, + a) (mih* + b*)] = 0. 


(13) 
Cette condition doit être vérifiée pour toutes les matrices À 2t tous 
les vecteurs b. En posant en particulier b — — hm,, n°us aurons 


tr (gKe — Kys) 4 = 0. 


Nous obtenons alors, exactement de la même façon que dans ie cas 
précédent, l’équation de la matrice £g: 


£Kx = Kyx- (14) 


Dans ce cas, la condition (13) sera vérifiée pour toutes les matrices À 
et tous les vecteurs b si et seulement si 


a = My — EMse (15) 


Ainsi, l'estimation linéaire optimale avec un décalage y = gr + a 
(régression linéaire en moyenne quadratique) est définie par l’équa- 
tion (14) et la formule (15), qui représentent les conditions nécessai- 
res et suffisantes d'optimalité. < 

Si la régression de Ÿ sur X est linéaire, alors, en vertu de la re- 


marque que nous avons formulée, la fonction y (x) = gx + a, où 
g et a sont définis par l'équation (14) et la formule (15), coïncide 
avec le régression. 

Rensarquons que la fonction linéaire avec décalage gr + a peut 
être considérée comme un cas particulier de la fonction linéaire gx. 
En effet, en ajoutant au vecteur x une autre coordonnée, égale à 1, 
c'est-à-dire en posant x’ = [zT 1[7, et en introduisant la matrice 
g" = [g al, nous obtenons gx + a = g'x'. L'équation (14) et la 
formule (15) s’obtiennent respectivement de (9) dans le cas particulier 
où l’une des coordonnées du vecteur x est égale à 1. 

Dans le cas particulier où les vecteurs X et Y sont réels et où leur 
distribution conjointe est normale, les régressions sont toujours li- 
néaires ($ 4.4). C'est pourquoi l'équation (14) et la formule (15) 
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définissent la régression de la projection Y d'un vecteur aléatoire 
normalement distribué [XT YTI]T sur sa projection X sur les sous- 
espaces complémentaires. La formule (4.55) et l'équation (4.57) 
définissant la régression d’une coordonnée d’un vecteur aléatoire 
normalement distribué sur toutes ses autres coordonnées découlent 
des résultats obtenus en tant que cas particuliers. 


Exemple 1.Soitf(z, y) la densité de probabilité conjointe des vecteurs 
aléatoires X et Ÿ, m,, K+ l'espérance mathématique et la matrice de variances- 
covariances du vecteur X, le déterminant | ÆX. | est différent de 0. Dans ce cas, 
le déterminant de la matrice L, = Kx + m,m+ est strictement positif et l’équa- 
tion (9) a une solution unique 


O0 où 


re | | droit dde | my (x) 2T T3! fi (xx, 
O0 


00 — 00 _ 


Où /, (x) est la densité de probabilité du vecteur X. Cette formule donne, avec 
a formule approchée m, (x) & gr, l'expression de la linéarisation statistique 
de la régression m, (x) pe Booton *). 

Excmple 2. Dans les conditions de l'exemple 1, l'équation (14) admet 
une solution unique 


00 [» ») 
g=KyxKx = | | Gy—ms)(z— ms) Kx'f(x, y) dx dy= 


—0 —00 


= | my (x) (z—m,)T Ke (r) dz. 


Cette formule donne, avec la formule approchéc my (zx) Æ m,, + g (x — mx), 
la linéarisation statistique de la régression m,, (x) d'après Kazakov. Nous décou- 
vrons ainsi que la base de la linéarisation statistique repose sur les modèles de 
régression linéaire. 


2.6. Résolution des équations déterminant la régression linéaire. 
Pour résoudre l'équation (14), on peut utiliser différentes méthodes 
numériques et les programmes correspondants [1, 94, 107]. L'une 
des méthodes les plus commodes de résolution de l’équation (14) 
est la méthode basée sur la décomposition canonique du vecteur aléa- 
toire X. Soient 


X=m,+ D Vrtr (16) 
p=i 


*) Booton [12] et Kazakov [31] ont élaboré, indépendamment l’un de l’au- 
tre, une méthode de linéarisation statistique pour l'étude pesée de la pré- 
cision des systèmes non linéaires. Ils ont considéré le cas des scalaires X et 
Y = œ(X) pour une fonction donnée @ (x). Par la suite, Somerville et Atherton 
[101], Kazakov [32] et d'autres ont étendu cette méthode aux variables vectoriel- 
les X et Y (cf. également la revue [95]). 
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une décomposition canonique quelconque du vecteur X, f,, ..., f, 
des vecteurs vérifiant avec leurs vecteurs de coordonnées x, . .., x, 
la condition de biorthogonalité ET = LTfp = Op (Pr 4 = 
., r). Par ailleurs, en vertu de (3.71) et (3. 69), nous avons ni — 
= DK,fr et Vr — f5X° = X'Tf,, où D, désigne la variance de 
la variable Vo. 
> Nous rechercherons la solution de l'équation (14) sous la 
forme 


r 


g= 2 Cf (17) 


P= 


Pour déterminer les coefficients inconnus €,, . .., c,, portons l'ex- 
pression (17) dans (14): 


ta 


2, CrfrKe= Kyz. 


Compte tenu de l'égalité frkx= DT, nous obtenons 
r 
à, CpDptp = Kyx- 


En multipliant cette équation 


* 


à gauche par fa et en remarquant 
que 2%fa = Zpfn = Ôpqgr nous obtenons 
Nous en tirons 
1 - 
Cp D, Xuxir (Pl: 7): 


En portant cette expression dans (17), nous aurons 
r 
1 7 4T 
£ — D Dp Kyxfplp. (18) 
p=1 


Il reste à vérifier que la matrice g définie par cette formule vérifie 
l'équation (14). Remarquons pour cela qu'en vertu de (16) nous avons 


Kyx= MYOX% = D MYIV 28. 


p=i 
Etant donné que V,=fpX = XXE, nous avons 


MYW, —= MY°X%F, . Koss, 


r r 
= | 1 A 
K x = ÿ K yxf pTp = S Dh K yxl plpKz- 
220244 
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Nous obtenons la même relation en multipliant (18) à droite par X.: 


r 1 L : 
gK;=— ÿ Dy Kyxf pfok x. 
p=i 
Par conséquent, la matrice g définie par la formule (18) vérifie l’équa- 
tion (14). 

La formule (18) donne la solution de l'équation (14) aussi bien 
dans le cas où le déterminant de la matrice ÆX, est différent de 0, 
que dans le cas où il est égal à 0. Dans le second cas, la solution géné- 
rale de l’équation (14) s'obtient, en ajoutant au second membre de 
-la formule (18), une matrice arbitraire k vérifiant l'équation kK, = 0. 

> Pour résoudre l'équation (9), représentons-la à l’aide des rela- 
tions (12) sous la forme 


gKx — Kyx + Àmx, (19) 
où 
À = My — gms. (20) 
Comme l'équation (19) est linéaire, sa solution est de la forme 
£ — So + À 81 (21) 
où £o et g, sont les solutions des équations 
LoKx — Kyx te = MX. (22) 


La solution de la première de ces équations est donnée par la formu- 
le (18). Pour résoudre la seconde, représentons la matrice de varian- 
ces-covariances À, à l’aide de la décomposition canonique (3.75): 


7 
_— \ 
P?= 


Dans ce cas, la seconde équation (22) sera de la forme 
r 
>, Dex tr = mà. 
p=l 
Il est évident que cette équation admet une solution uniquement dans 
le cas où l'espérance mathématique m. peut être représentée par 
une décomposition en vecteurs de coordonnées de la forme: 


m= D) (fpm)zp= À (Mifp) Tp- (23) 
p=i pal , 


Or, cela aura lieu soit si le déterminant de la matrice Æ, est différent 
de 0, soit si le vecteur m. äppartient au sous-espace sur lequel est 
concentrée la distribution du vecteur centré X°. Si aucune de ces 
conditions n'est vérifiée, alors l'équation (22) n’a pas de solution. 
En supposant que m. puisse être représenté par la décomposition (23), 
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nous trouvons, exactement de la mème façon que précédemment, la 
solution de la seconde équation (22) sous la forme 


r ! . 
= D He mäfnir (24) 
p=i 


Après avoir déterminé g, et g,, nous trouvons À en portant l’expres- 


sion (21) dans (20): 


ECTS (5) 
Les formules (18), (24), (25) et (21) donnent la solution de l'équation 


(9). 

Si le rang p de la matrice K, est inférieur à la dimension r du 
vecteur X, alors, conformément au $ 3.4, nous avons z,+, = ... 
…..=Æ% =0,D,4 =... =D, = 0 ct la sommation sur p dans 
16), (17), (8), (23) et (24) est étendue de 1 à p. 

Si l'espérance mathématique m, ne peut être représentée par la 
décomposition (23), alors l'équation (19) a une solution pour laquelle 
À = 0 et, par conséquent gm, — m,. Pour obtenir cette solution, 
posons (dans ce cas pret z,4y= ... — 2 = Ü) 


p 
T 
S—Mz— 2 (fPMx) Th 
P= 


et nous déterminons la matrice-ligne 


. r 
h= + 3 Ypfr 


1 
de sorte que ; 
hz, =0 (g—=1,..., p). 
Il suffit pour cela, en vertu de la condition fLta = Ôpa de prendre 
k a Ld e e 
Vg = —$ zall s F(g = 1, ..., p). Il est évident que la matrice 
vérifie l'équation homogène 
kK, = (. 


Pour s'en convaincre, il suffit d'utiliser la décomposition canonique 
de la matrice K.. Nous obtenons alors 


p p 
hK,=h 2 Dtpti= D» D,(hx;)r# = 0. 
p= p=i 
En vertu de cela, la matrice 
£ — £o ns uh, 
pour toute matrice-colonne, vérifie l'équation 
£8K = Ke 
229 
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autrement dit, l'équation (19) pour À = 0. Il reste à choisir u de 
telle sorte que l’on ait À — 0. En portant la solution trouvée g dans 
(20), nous obtenons 


À = My — EMzx = My — LoMx — MM, = My — Ex — LU, 
étant donné que km, = hs = s*s/| s  — 1. En posant u = m, — 
— £gon,, nous aurons À — 0. Dans ce cas, la formule 

8 = 80 + (my — gomx) h (26) 


définit la solution de l’équation (9). On peut également s’en con- 
vaincre directement en substituant l’expression (26) dans (9) en 
tenant compte de la première des équations (22) et des égalités 


hK,—0, hm, = 1. <Â 
2.7. Modèles de régression déterministes et stochastiques. La ré- 


gression m, (x) et son estimation optimale y (x) représentent des 
modèles de régression déterministes. Pour obtenir un modèle de ré- 
gression stochastique, il suffit de représenter la variable Y sous la 


forme ŸY = m,, (x) + Z ou Y — y (x) + Z,, où Z'et Z, sont certaines 
variables aléatoires. 

Il apparaît de (9), (14) et (15) que, pour trouver un modèle de 
régression linéaire déterministe, il suffit de connaître les espérances 
mathématiques m,, m, des vecteurs X et Y et les matrices de varian- 
ces-covariances X,, X,, Pour trouver un modèle de régression li- 
néaire stochastique, il faut encore connaître la distribution de la 
variable aléatoire Ÿ pour tout x ou, au moins, son espérance mathé- 
matique m, (x) (sa régression) et la matrice de variances-covariances 
K, (x) (coïncidant avec la matrice de variances-covariances K, (x) 
de la variable Z). 

Le problème plus général de la meilleure approximation de la ré- 
gression par une combinaison linéaire finie des fonctions données 
P1 (Z), - . ., @n (x) se ramène au problème de la meilleure approxi- 
mation linéaire de la régression, étant donné que toute combinai- 
son linéaire des fonctions ®, (x), . .., A (x) représente une fon- 
ction linéaire des variables z, — @, (x), . .., 2x —= @N (x). 


Exemple 3. Construire le modèle de régression polynomiale optimal 
dans le cas 1 variables scalaires X et Y. 

En ROSE Z1 — Ts 29 = 2, 2ù = IN, = 11 . . ZNÎT, = 
= [a 81 : . &Nx], nous ramenons le problème à à celui de la he du mofèle 


linéaire y @) — gz. Dans ce cas, l'équation (9) est de la forme 
T 1 (e 2 ... ŒN 


[a £g1... 8n) " ne ee ŒNai | =[m, Yi... vw), 
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où &) — MXP est le p-ième moment de la variable X et y, — MYYr le 
(p + 1)-ième moment du vecteur aléatoire [X Y]T comportant Y au premier 
degré. L'équation obtenue définit la régression polynomiale en moyenne quadra- 
que de Y sur X de degré N, qui sert de modèle optimal de régression polyno- 
miale. 

On construit de façon analogue des modèles de régression polynomiale opti- 
maux dans le cas des vecteurs X et Y. 

On applique, pour la résolution des équations définissant le modèle de 
régression polynomiale, les mêmes méthodes numériques que dans le cas des 
modèles linéaires. En particulier, on peut utiliser les décompositions canoniques. 
Dans le cas considéré d'ine variable scalaire X, il suffit pour cela de trouver, par 
la méthode du paragraphe 3.4, la décomposition canonique du vecteur aléatoire 


= [1 X ... XN]T. 


$ 3. Estimation des régressions 


3.1. Estimation de la matrice des coefficients de la régression 
linéaire. Si les espérances mathématiques m,, m, et les matrices 
de variances-covariances K,, K,, ne sont pas connues, alors l’éla- 
boration du modèle de régression linéaire passe par l'estimation, à 
partir des résultats des épreuves, de la matrice g et, dans le cas du 
modèle linéaire stochastique, également par l'estimation des carac- 
téristiques statistiques de la variable Y pour chaque x donné. 

Nous allons considérer, comme toujours, dans les problèmes de 
statistique mathématique que toutes les grandeurs sont réelles. 

Supposons que le résultat de nr épreuves indépendantes nous ait 
fourni les couples de valeurs (x;, y), . .., (zx, y.) des grandeurs x 


et Y. Pour trouver les estimations linéaires de la régression y (x) = gx, 
il est naturel d'appliquer la méthode des moindres carrés (point 1.2.8). 


Dans ce cas, la matrice g sera déterminée à partir de la condition de 
minimisation de la quantité 


nm 
e—= 2 lun —gaul?. 
Cette expression diffère de (4) quand y (x) = gx uniquement par le 


fait que le signe d'espérance mathématique est remplacé par le signe 


de sommation. C'est pourquoi l'équation pour la matrice g s'obtient 
en remplaçant dans (9) les espérances mathématiques par les sommes 
correspondantes : 


8 D aux = ZX yxsr. (27) 


h=1 


En introduisant les matrices 


= È me Be Ÿ net. 8) 
= 1 h=1 
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nous écrirons (27) sous la forme gA — B. Cette équation admet une 
solution unique si et seulement si la matrice À n’est pas dégénérée. 
On peut toujours y parvenir soit par le choix adéquat de x,, ..., z,, 
soit en modifiant le nombre des épreuves. Dans ce cas, la solution 
de l'équation (27) est donnée par la formule 


g= BA = D yyxTAT. 


3.2. Propriétés statistiques des estimations. Etudions les propriétés 
statistiques de l'estimation trouvée de la matrice g. 
> Considérons tout d’abord le cas où x est une variable non aléa- 


toire. Dans ce cas, g représente la réalisation donnée par le résultat 
des épreuves de la variable aléatoire 


n 
G= no YazT A1, (29) 
où }',, ..., Ÿ, sont les valeurs aléatoires de la variable Ÿ au cours 


des nr épreuves. Il découle de (29) que 


MG +2 my (Tr) 27 A"î. (30) 
Dans le cas particulier de la régression linéaire m, (x) = gx, la 
formule (30) se met, compte tenu de (28), sous la forme 


n 
MG =£g à zxTA = g. 
Ainsi, dans le cas de la régression linéaire, G représente l'estimation 
sans biais de la matrice g. 


Load 


Pour étudier la dispersion de l'estimation G, appelons G,, Tr 
les lignes de la matrice G (m désigne la dimension du vecteur Ÿ): 


n 


Cr = > YhptT A"! (p= 1, .., m), 
Î 


k= 


OÙ us + - » Y'xm Sont les coordonnées du vecteur Y, (#4 = 1, ... 
.., R). Trouvons les matrices de variances-covariances et les matri- 


ces de covariances croisées des vecteurs GT et GT . 


L pq Da MGITG® = >, Az MY Rp Y tqtt A7! = 


k, l=mi 


= A”! 21. TT MY hpY 1Q A1. 
R,l= 
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Etant donné que les vecteurs aléatoires Ÿ, et Ÿ’,; sont indépendants 
quant Re k en vertu de l'indépendance des épreuves, nous avons 
MY} p = 0 quand ! Æ k. La quantité MY£Y/IT représente la 
matrice “de variances-covariances X, (x) du vecteur aléatoire Ÿ pour 
x = x,. C'est pourquoi nous avons 


MY upY ua — MY 5Ya [Lx] = k pa (xx). 
Nous en tirons par conséquent 
n 
Lg = MG? Gi = A"! 2 ThTTkpg (Tr) A1. (31) 
Dans le cas particulier où la matrice de variances-covariances X, 


du vecteur Ÿ ne dépend pas de zx, la formule (31} se met, en vertu de 
(28), sous la forme 


Lg = kpa4TŸ (p,q=1,...,m) 4 (32) 
Cette formule montre que la matrice de variances-covariances du 
vecteur aléatoire G — [G, . .. Gh1T représente le produit direct (de 


Kronecker) des matrices K, et A1 [48, 57]. 

3.3. Estimation de la matrice de variances-covariances de la 
variable observée. Supposons tout d'abord que la régression soit 
linéaire et que la matrice de variances-covariances X,, du vecteur Y 
ne dépende pas de x. 

> Dans ce cas, on peut obtenir l'estimation de la matrice X, en 
prenant respectivement les valeurs moyennes des carrés et des produits 
des écarts des valeurs observées des coordonnées du vecteur Y de 
l'estimation trouvée de la régression. Dans cet esprit, considérons 
la statistique 


nm 


S (Y,— Gr) (Y,—Ga)T. (33) 


Trouvons son espérance mathématique. Remarquons pour cela qu’en 
vertu de (27) nous avons 


po (Y — Gzz) zT = 0 
Ecrivons maintenant (33) sous la forme 

s=À (Y, — Grs) YÉ. (34) 
Nous en tirons 


MS =-M 2 Y,YT— MG D ay. (35) 
k= hui 
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La quantité MY,Y} représente le moment du second ordre du vec- 
teur aléatoire Ÿ pour z = x,. En appliquant, pour son calcul, la 
formule (3.37), nous obtenons 


MY Yi = Ty) = me) my (a) + Ky= ete + Ky. 


Nous avons par conséquent 
ñn LU 
M 2 Y,YÉ = e2 TTRg +nk,=gAg" +nk,. (36) 


Calculons le second terme de (35). En vertu de (29), nous avons 


ñn 


MGD mYI=M D Yi Az, XI. 
k { 


,l= 


Nous en tirons, en tenant compte du fait que les quantités 27 A”ix, 
sont scalaires, l'expression 


n ñn 
MGIS aYi= D x Aa MY Yi. 
k=1 k, 1=1 


Mais, en vertu de l'indépendance de Ÿ, et Y ; quand !  k, nous avons 
MY Yi =MY MY = gnrig", 
MYiYi = ge" + Ky. 


Nous en tirons par conséquent 


MGDnYi= D» mA user} eg" + D aTA ir, K, = 
hk=1 kh=1 


n 


{= 

. T TT 

= 2 . LEtnt Ant sg +K, Pr 2TA ir, — 
n 


n nr 

2 ZATT A”! à Titi ET + K,tr 2 x, 24 A7 = 

— g Ag" +-K, tr AA'1. 

Or, AA”! représente la matrice unité dont l'ordre est égal à la di- 
(4 


mension r du vecteur x. C'est pourquoi tr AA”! = r et, par consé- 
quent, nous obtenons 


MGD 2,Yi=gAg +rK,. 
h=1 


En portant cette expression ainsi que (36) dans la formule (35), 
nous obtenons en définitive 


MS =(n—7r) Kye 
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Cela montre que l'estimation sans biais de la matrice de variances- 
covariances À, est déterminée par la formule 


> S 1 < o = _ 
== nr D Pa Ga) (Fa— Ga)". € (87) 
—{ 


Pour calculer la quantité S, on utilise souvent la formule 
n mn mn 
S:= D Y,Yi—GAG?, 
H=1 


découlant de (34) et (29). Dans ce cas, (37) devient 


2) 


: [S YaYr—GAG |. (38) 


Vo n—r 
k=1 


En remplaçant dans (32) les covariances k,, par leurs estimations 
sans biais tirées de (37), nous obtenons des estimations sans biais des 


matrices de variances-covariances L,, des lignes de la matrice 6. 
3.4. Propriétés statistiques des estimations des valeurs de la ré- 
gression. Etudions maintenant les propriétés statistiques des esti- 


mations de la régression Ÿ = Gx pour un x donné. 


L'estimation G étant sans biais, la grandeur ŸY — Gzx est une esti- 
mation sans biais de la variable gr. Pour trouver la matrice de va- 


riances-covariances À; de l'estimation Ÿ, remarquons que les coor- 
données du vecteur Y s'expriment en fonction des lignes G;, . . ., Gm 


de la matrice G par la formule Ÿ, = Gpt = zTGT. En utilisant cette 
relation et la formule (32), nous trouvons les éléments de la matri- 
ce K;: 

ÿ : 


X pq = M (x! GT) (G°z) = 2x MG GPx-= k Da” Aix. 


Il en découle que 
K; = 2TA 2K,. (39) 


L'estimation sans biais de la matrice K; en découle alors en rempla- 
çant la matrice X, par son estimation sans biais tirée de (37). 
3.5. Estimation de la régression non linéaire. Si la régression 
est non linéaire et si la matrice de variances-covariances de la varia- 
ble Y dépend de zx, alors on peut obtenir l'estimation de la régres- 
sion m, (x) et de la matrice de variances-covariances X, (x) unique- 
ment dans le cas où, pour chaque valeur x, la grandeur Y'est observée 
un grand nombre de fois, autrement dit les x,, ..., x, se scindent 
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en des groupes de valeurs identiques *). Supposons que 7,, parmi 
les grandeurs zx,, ..., z,, soient égales à 21), n, soient égales à 
zt*), etc., n, soient égales à z(N), n, + ...+n, = n. Désignons 
par YÉ(k=1,..., nn; p=1Â,..., N) les valeurs de la va- 
riable Ÿ pour x = 27). Dans ce cas, en vertu des formules (6.34) 
et (6.37), les estimations sans biais des variables m, (x) et Æ, (x) 
pour x — 2, ..., 2N) sont définies par les formules 


n 


P 
/ Ta 1 
M, (GP)=YP = De 


hk=1 
Tp 
Re D Fo) For. 
ke 1 


Les caractéristiques statistiques de ces estimations et le domaine de 
confiance dans le cas de la distribution normale de Y sont déterminés 
par les formules du paragraphe 6.5. 

3.6. Cas de la régression linéaire et de la distribution normale. 
Considérons plus en détail le cas particulier où la variable Y suit 
une distribution normale, sa régression sur x est linéaire et sa matrice 
de variances-covariances X, ne dépend pas de x. 

> Dans ce cas, la densité de probabilité conjointe des variables 
observées Ÿ,, ..., }, est définie par la formule 
f (Yas -.., Un) = 


1 < : 
ss U k=1 


Or, 
n nn 
D, Ga — 8m)" Ky'Qn— 82) = tr Ki 2 (un — 824) (un — zx) 


La somme figurant dans cette formule s'exprime en fonction des 


quantités £ et s. Nous avons en effet 
n 
T 
à (Un — ET) (Un — En) = 


: [ya — gx + (8 — 8) za] [ur — Era + (8— 8) 7 = 


Î 
UE 


td 


*) On peut trouver les estimations des variables m, (x) et Æ, (x) par la 
méthode des moindres carrés en présence d'une observation unique ÿ pour cha- 
cune des valeurs 1, ..., r, de la variable x, mais uniquement dans la classe 
des fonctions suffisamment simples, pour lesquelles le nombre de paramètres 
inconnus est notablement inférieur au nombre n d'épreuves. 
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S T° T SL, T T° 
= D (8— 8) uvk (8— 8)" + D (8— 8) 2x (ur — 287) + 


+ + (ya — 8x) zi, (e=- —g) F2 (ua — Ezy) (Ux — £a)". 


En prenant en le fait qu'en de (27) et (28) 


n n n 
à (Yn — ETx) ti = 0, 2 Th (Ur — gxx)" = 0, à ThTE = À, 


nous obtenons 


2 (Un — 82) (Ur — Et)" = 
— (g— g) À (g— g)? 1e 2 (Ur — £t) (Ur, — en)? _ 


= (g—8) A(g—8) +s. 
Nous trouvons par conséquent 


2 Guen)" Ki (u— ea) = tr Ki (8— 8) A(8—8)" + tx Kis 
et 


1 
(Yi +. Yn) = 


ACHAT IL ” 
x exp {—+tr Kit (8—8) A(E— 8)" tr Kÿ's}. (40) 


Il en découle que les variables aléatoires Get S sont indépendantes 


et forment une statistique exhaustive ; de plus, G suit une distri- 
bution normale et S une distribution de Wishart w,.,4, m (s). La 
diminution du nombre de degrés de liberté de S de nr — 1 à nr —r 
par rapport à la variable S du paragraphe 6.5 s'explique par le fait 
que les vecteurs Ÿ, — Gz, (4 = 1, ..., n) sont liés par r dépen- 
dances linéaires 


ñn 
2) (Y x — Grx) Zap = 0 (p= 1, “ous r), 
découlant de en *). I1 découle alors de (40), de même que dans 
l'exemple 7.6, que les estimations du maximum de vraisemblance 
des paramètres g et K, sont les quantités Get S/n— K, (n—r)/r. 
*) Dans le cas particulier du $ 6.5 pour lequel r = 1, x, = 1, les vecteurs 


Yi — Gr = Yp—Ÿ, Y = ({/n) pal Y}, sont liés par une seule relation 
SFr —Y)=0. 
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3.7. Choix des valeurs de la variable indépendante. Si les valeurs 
Lis + + «+ Zn de la variable x pour lesquelles est observée la variable Y 
peuvent être choisies arbitrairement, alors on peut simplifier le 


calcul de l'estimation G en choisissant x;, . .., x, de telle sorte 
que la matrice À soit diagonale. Dans ce cas, l’équation (27) se dé- 
compose en mr équations indépendantes déterminant séparément 


les éléments de la matrice G. 

Pour trouver les vecteurs x;, ..., æ, associés a la matrice dia- 
gonale À, choisissons des vecteurs arbitraires x,, ..., Th et dési- 
gnons par u, le vecteur an dimensions formé par les p-ièmes coor- 
données des vecteurs x, . .., Zn: 


His dal De hkx:s D. 


On peut alors considérer les éléments de la matrice A comme le 
produit scalaire des vecteurs correspondants u, et u,. En appliquant 
aux vecteurs u;, ..., u, la méthode ordinaire d’orthogonalisation, 
nous les remplaçons par des vecteurs orthogonaux u,, ..., u,. 
En désignant par x, le vecteur formé par les k-ièmes coordonnées 
des vecteurs u,, ..., u, (k = 1, ..., n), nous obtenons des vec- 
teurs z,, . .., Zn associés à la matrice diagonale À. Il est clair que 
les vecteurs initiaux zx,, ..., x, doivent être choisis de telle sorte 
que les vecteurs x,, . .., z, soient distribués approximativement 
suivant une loi uniforme dans le domaine des valeurs de x qui nous 
intéresse. 
3.8. Domaines de confiance pour la régression. Il reste à trouver 
les domaines de confiance pour g et X,. 
+ Pour déterminer le domaine de confiance pour la régression 
— gx pour une valeur donnée de zx, utilisons la troisième méthode 
du point 6.2.4. Nous vérifions, de même que dans les exemples 5.15 
et 5.24, que la variable aléatoire 
F T? n—r—-m+i __n—-r—-m+i (Ÿ — y)? S- L(Ÿ — 


y) 


suit une F-distribution fm n-r-m+1 (f) ne dépendant pas du para- 
mètre inconnu g. La grandeur F peut être adoptée en qualité de fonc- 


tion (Ÿ, S, g) du point 6.2.4. Le domaine de confiance pour la 
valeur y = gx de la régression pour un x donné sera alors déterminé 
par l'inégalité 
m T - 
NT &-1 1 Ÿ LL mr Air 
(Y —y) SA1(Y CDS PT 


(41) 


où /, désigne le quantile supérieur d'ordre 1 — & de la F-distribu- 
tiOn fm.n-r- -m+1 () (la valeur f pour laquelle la fonction de réparti- 
tion est égale à æ). 
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Dans le cas particulier d'une variable aléatoire scalaire Ÿ, la 
distribution f,,-, (f) de la variable F conduit à la densité de proba- 


bilité 2s,-, (t) pour la variable T = + YF. Dans ce cas, le domaine 
de confiance (41) pour y = gx est représenté par l'intervalle 


+ V2 Az z' Aix <y<Ÿ st, = 


où t, est défini par l'équation S,_,({,) = P . T|<t,)=a 
(table 3). « 

Le domaine de confiance de la matrice g, dans le cas d’un vec- 
teur Ÿ , est défini d’une manière plus complexe, et on ne peut obtenir 
de résultat commode pour une application pratique dans ce cas. 
La voie de résolution de ce problème sera montrée au paragraphe 4. 

> Dans le cas particulier d’une variable aléatoire scalaire Ÿ, 
la distribution du Wishart de la variable S se ramène à la distribu- 
tion du khi-deux à r — r degrés de liberté de la variable S/D,. 


Or, comme la variable (G — g) À (G — 8)'/D,, indépendante de S, 
en vertu des résultats de l’exemple 5.24 suit une distribution du khi- 
deux à r degrés de liberté, alors la quantité 


p - —9 4(G—e)T/r 
S/n—r 
suit une F-distribution f,,-, (f). Par conséquent, le domaine de 
confiance pour la matrice-ligne g est défini par l'inégalité 


(G— 8) A(C—- 8) <fo——, (42) 


OÙ fa MR le quantile supérieur d’ordre 4 — & de la F-distribu- 
tion f,n- 

Dans Le cas d'une variable vectorielle Ÿ, l'inégalité (42) définit 
les domaines de confiance pour les lignes de la matrice g séparément. 

3.9. Estimation de la régression linéaire avec décalage. Dans les 
problèmes pratiques, il est fréquent que l’on doive trouver l’esti- 
mation linéaire de la régression avec décalage. 

> Dans le cas d’une estimation linéaire de la régression avec 
décalage, la première coordonnée du vecteur x est égale à 1 confor- 


x" A- 
Az, 


” 


mément à la remarque du point 2.2.5. Remplaçons dans ce cas £g, g 


et x respectivement par les matrices-blocs [a gl], [a g] et [1 xT]T;: 
l'équation (27) s’écrira alors 


L DE 
= K=1 
[ag] | , ; = [2 UT 2 yaTT)]. 
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Cette équation se scinde en deux équations: 
E Fe ñn n 
na + £ 2) Th à Un 


n n n 
m T # 
a Date Dur = Ÿ YnTT. 
k=1 ki k=1 
La première équation donne 
1 n An n 
ARE £ in = = 
Q=— D Yn— D TR =y— 87. 
hi k=1 


En portant cette expression dans la seconde équation, nous la met- 
trons sous la forme 


LU LU 
BCÈ eg ner) = À eg —nÿar 


ou encore 


ñn n 

À = _ = =T 

8 2 (ma) (m2) = 2 (a y) (x 2)". (43) 
On peut ainsi, dans ce cas, représenter l’estimation linéaire optimale 
de la régression sous la forme 


y(z)=y+g(r—2x), 
où g est déterminée à partir de l'équation (43). Cela nous permet de 
réduire de une unité la dimension de la matrice des coefficients et 
le nombre de colonnes de la matrice dans le second membre par rap- 
port à (25). 
Le domaine de confiance (41) pour la valeur de la régression a + 
+ gz = y pour un x donné se transforme alors de la manière suivante 


(P+G(z—2)— y) S1(Ÿ +G(z— 2) —y) < 
Le (++ 4 (2-5 ], 
A" = È (x —2) (rx —2)T. 


Dans le cas d’une variable aléatoire scalaire Y', le domaine de 
confiance (42) pour la matrice-ligne [a g] est de la forme 


n(V—a— ga) +(G— 8) A'(Ê—e) < fa. 


n—7r 
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I1 faut alors se rappeler que les ‘vecteurs x, ..., x, et x sont de 
dimensions r — 1. 4 


Pour obtenir la solution de l'équation (43) sous une forme commode pour le 


calcul, désignons par 6, et o, les matrices diagonales dont les éléments sont 
respectivement les moyennes quadratiques d'échantillonnage de l'écart des 


coordonnées des vecteurs Yet x, par À et Ryx la matrice de corrélation empirique 
du vecteur z et la matrice de corrélation croisée des vecteurs Ÿ et x “). Nous 
pouvons alors écrire 


n 
A'= NN (zR—2)(n—2) = (n—1)04R:0%, 


k=1 
n PR ni A A LS (44) 
à GR — y) (an — 2) =(n—1)0yRyx0 x) 
et l'équation (43) devient 
£ OxRx =0yRyx. 
En résolvant cette équation, nous obtenons 
£=0yRyxRx 0x" . (45) 


11 est évident que les lignes de la matrice g sont définies indépendamment 

les unes des autres du fait que l'équation (43) (de même que (27)) se scinde en 

lusieurs équations indépendantes de même forme, dont chacune détermine la 

igne correspondante de la matrice g. Cela fait que l’on peut estimer la régression 

our chaque coordonnée du vecteur Y séparément. Cela est habituellement utilisé 
ors des calculs numériques. 

Dans le cas d’une variable aléatoire scalaire Y (ou d’une coordonnée Y 
du vecteur aléatoire qui nous intéresse), il est commode, pour calculer la réalisa- 
tion s de la statistique S, d'appliquer l’artifice suivant : nous obtenons, de même 
que lors du passage de la formule (37) à la formule (38), l'expression 


n n 
= N° [yn—y—g(an—2}= N (ya—y— gA'eT. 
LES | R=1 


En portant ici les expressions de 4° et g tirées de (44) et (45) et en tenant compte 
du fait que RT, = R;ys nous trouvons 


n 
= Dé. 1 
Su à GR — y} —n—1) ouRyxRx Rry, 
ou, encore, en posant 


’ 


et en prenant en considération le fait que (nr — {) 6? = $’, 
ss (1 — R,,R'Ri)- (46) 


*) Les caractéristiques statistiques empiriques peuvent évidemment être 
calculées également dans le cas où les variables observées ne sont pas aléatoires. 
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La formule (37) donne une estimation sans biais de la variance D, de la variable 
aléatoire Y: 
* s 


d : (47) 


nr 


Finalement, en tenant compte du fait que dans ce cas précis nous avons 


2 HTAT —7TA'T! 
L O—A" 1; A”! | 


nous obtenons, à partir de (32), une estimation sans biais de la matrice de 
variances-covariances de l'estimation du paramètre [a gl]: 


A1= 


Led m 


da = dy (+74 ) , Rgo=—diA" tx, ky=dy4""t. 


En portant ici l'expression de 4’-! tirée de (44), nous obtenons 


> d RETUUe a 

da = : +alker, kga= —kgt; 8) 
- 0x'R x 0x! 
Sa y n—1 


Les formules (45)-(48) sont à la base du programme standard d'analyse de 
régression linéaire MULTR [94] *). 

Exemple 4**). Elaborer le modèle de régression linéaire optimale à 
partir des résultats de 30 observations de la variable Y et du vecteur x à 5 di- 
mensions représentés dans la table suivante: 


Up Yh 


© OO =) Où OUT CD KO 
© 
(SA 
D 
FSS 
© 
D 
=] 
[SA 
(de) 
on 
© 
© 
= je 
CO =] O 
EE EE 
(SA RS: RS: 
Co => CD 
JO — 
« © > © 
© © 10 
On © © 
1 © 10 
SES 
œ 
>» C9 IV 
CO O1 © 
OH e EE © EE O0 HE ES CD 10 


EE 
© 
© 
SA) 
(ep) 
tÙ 
…] 
PS 
=] 
de) 
=> 
de) 
CO == = = © © D © DD © D D = 


*) On dispose dans [94] du programme général REGRE pour l'élaboration 
des modèles de régression linéaire; il utilise le sous-programme CORRE pour 
calculer les moyennes, variances, covariances, les coefficients de corrélation 
empirique et les sommes des carrés et des produits; le programme MINV, pour 
inverser la matrice R,, et le programme MULTR, pour l'élaboration concrète 
du modèle de régression. 

*+) Les exemples 4 et 5 sont empruntés à [94]. 
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En utilisant le programme REGRE: le calcul sur ordinateur nous conduit 
à la relation suivante: 


y (x) = 2,267 + 0,01 [1,242 0,739 1,504 0,151 4,919] X 
X (r —143,13 316,17 241,80 105,67 34,13)T 


Les estimations des écarts quadratiques moyens de la variable Y et des estima- 


tions des coefficients de régression sont 
l 


0y=1,05162, Oy,=0,03635, 079 =0,00186, 
Ogs—0,00635, Op, —0,03679, Oys=0,04141. 


L'analyse de ces résultats montre que l'erreur asus moyenne des estima- 
tions des premier et quatrième coefficients de a régression est nettement supé- 
rieure aux estimations de ses coefficients. Cela suggère l'hypothèse que, dans 
cette régression, la dépendance de la première et de la quatrième coordonnée 
du vecteur x n’est pas significative. Dans l'exemple 8, nous verrons que cette 
hypothèse peut être adoptée. 

En prenant en considération le fait que dans notre cas n = 30, r — ô, 
s — 26,54161 et en définissant dans la table 6 le quantile supérieur d ‘ordre 
0,05 de la F-distribution fe.2s (f); fo.os — 2,51, nous trouvons le domaine de 
confiance, pour la matrice [a g correspondant au niveau de confiance 0,95: 


(2,267—a— gr)? + (8 —e) 4" (8—e)T < 0,555, 
où 

z=—[43,13 316,17 241,80 105,67 34,13]?, 

g=—0,01 [1,242 0,739 1,504 0,151 4,919]7. 


A _n—1= 52 2-2 


A" = à ee OxRxOx 30 OxRxOx) 


- est une matrice diagonale dont les éléments diagonaux sont 6,52176, 114,42990, 
36, 43074, 17,85640, 15,97571, et 

1,00000 —0,06721 —0,13689 0,49755 0,55849 | 
—0,06721 1,00000 —0,17857 —0,05227 —0,18381 
—0,13689 —0,17857 1,00000 —0,40874 —0,26319 

0,49755 —0,05227 —0,40874 1 ,00000 0,93552 

0,55849 —0,18381 —0,26319 0,93552 1,00000 


x) 
h 


Le domaine de confiance pour les valeurs de la régression linéaire de y 
pour z donné est défini par l'inégalité 


y—2,267—$ (z—x) | < 
< 0,396 V'1+1,0845 (z—2)7 0x Rx'ox (xx) 


our les mêmes valeurs x, g, x et R. après la détermination dans la table 3 de 
a valeur t, = to,9s — 2,064 à partir des k = n — r — 24 et &« = 0,95 donnés. 


23—-0244 
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Exemple 5. Trouver l'estimation de la régression polynomiale du 
quatrième degré de la variable scalaire Y sur la variable scalaire x à partir des 
valeurs observées de x et Y au cours de 15 épreuves rapportées dans la table 
suivante : 


141 2 3 4 5 6 7 8 9 10 11 12 13 14 15 


Th 


10 16 20 23 25 26 30 36 48 62 78 94 107 118 127 


L'application du programme POLGR *) a permis d'obtenir sur ordinateur 
la relation suivante: 


y (x) = —5,642 + 19,449z — 5,1147z2 + 0,56508z% — 0,018113z4. 


3.10. Estimation de la régression d’une variable aléatoire sur 
une autre variable. Passons maintenant au cas où zx représente la 
valeur d’une certaine variable aléatoire À. Le problème de la re- 
cherche des moments des estimations et des domaines de confiance 
pour a, get y = a + gx devient dans ce cas nettement plus compli- 
qué. Quand les variables X et Ÿ suivent une distribution conjointe 
normale, on ne peut trouver aisément que les intervalles de con- 
fiance pour les éléments de la matrice g pris séparément. Pour ré- 
soudre ce problème, il suffit de considérer le cas d’une variable aléa- 
toire scalaire Y **). 

D Isolons maintenant la première coordonnée du vecteur X 
que nous noterons À .,. Le point devant l'indice sert à différencier 
la première coordonnée du vecteur À de sa valeur au cours de la pre- 
mière épreuve À.,. Représentons le vecteur À sous la forme d’une 
matrice-colonne par bloc À = [X., X'T]T *#*). De façon correspon- 
dante, représentons la matrice-ligne g sous la forme g = [£, gl 
et les valeurs du vecteur À au cours des épreuves correspondantes 
sous la forme X}, = [X%, XETIT (k = 1, ..., n). Soient g la matrice- 
ligne des coefficients de régression YŸ sur X = [X., X’TIT, h, la 
matrice-ligne des coefficients de régression de Ÿ sur À”, h, la matrice- 


ligne des coefficients de régression de X., sur À”, G, H., À, les esti- 


*) On dispose, dans [94], du programme POLGR pour élaborer un modèle 
de régression polynomiale : il utilise le sous-programme GDATA pour calculer 
les puissances de la variable-argument., les coordonnées du vecteur z, leurs 
moyennes empiriques, les sommes des carrés, les sommes des produits et les 
coefficients de corrélation: le sous-programme MINV, pour inverser la matrice 
de corrélation, ct le sous-programme MULTR pour élaborer concrètement le 
modèle. 

**) Par ailleurs, tous les résultats obtenus plus haut sont valables dans 
ce cas pour les caractéristiques conditionnelles pour des valeurs données de 
Ti ee ln: 

“*+) Pour éviter des distributions dégénérées, la régression de Y sur X 


est toujours représentée, dans ce cas, sous la forme y =y+ g (&— 52). 
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mations optimales des matrices g, h,, h:. Introduisons maintenant 
les notations : 


: v F) , V\19 ’ | - ’ 
Sy = À [Ya—Y—Hi(Xr—X")}, X'=+Y X», 


k= 1 k=1 
Sx= >» LXni— Lei H(Xa— XP, X4=+Y À h4 (49) 
h=1 Rkem{ 


Si= Da Pi TN XX He (Xi XN. 
Bartlett a démontré que la statistique 


nn 
TV Sr S'i1 (Gi — 81) (00) 


suit une T-distribution s,_,-1 (t) [2]. Cela permet de trouver les 
intervalles de confiance pour le coefficient de régression g,. On dé- 
finit exactement de la même façon les intervalles de confiance pour 
Los +... Er. ‘À 


Exemple 6. Trouver la régression de la variable aléatoire Y sur X 
dans les conditions de l'exemple 6.7. 

Nous trouvons à partir de la formule (45), compte tenu que dans ce cas 
n=20,r=1,Ri=1, Rx = rx, que g = 0,57. Comme, dans ce cas précis, 
nous avons Sy — (n — 1) O$, Sea — (nn —1)0ÿ, sia = (nr — 1) key = 
. — 1) OO alors l'intervalle de confiance pour g sera défini par l'iné- 
galite 


Led 


(0 n—2 " 
= 1— 9 |g—El <a, 


r£, 


Oy 


où £, est défini par l'équation S, .. (t,) — &«. En posant a — 0,95 et en tenant 
compte du fait que k — n — 2 — 18, nous trouvons, à partir de la table 3, 
les valeurs t, = to,ns — 2,103. Nous déterminons ensuite l'intervalle de con- 
fiance 0,27 << g << 0,87. 


$ 4. Vérification des hypothèses relatives 
à la régression 
4.1. Tests pour vérifier l’hypothèse d'égalité à 0 des coefficients 
de régression. Lors de l'élaboration des modèles de régression, une 
question se pose habituellement: n'est-il pas possible de négliger 
la dépendance de Ÿ de certaines coordonnées du vecteur x ? En d’autres 
termes, le problème se pose de la vérification des hypothèses que cer- 
tains éléments de la matrice des coefficients de régression g sont nuls. 
Soit x’ le vecteur formé par les p premières coordonnées du vec- 
teur x, x” le vecteur formé par les r — p coordonnées restantes. Pré- 


23% 
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sentons la matrice-colonne x sous forme de la matrice-bloc x — 
— [2'Tr"TI]T et la matrice g sous la forme correspondante de matrice- 
bloc g = [g” g”]; nous aurons alors gx = g'x' + gx”. Si la ré- 
gression ne dépend: pas de x”, alors g” — 0. Le problème consiste à 
déterminer si l'hypothèse g” — Ü concorde avec les données expé- 
rimentales. 

Pour trouver un test convenable pour la vérification de l’hypo- 
thèse g” — 0, considérons tout d’abord le cas d’une variable aléa- 
toire scalaire Ÿ . Supposons que l’on ait trouvé des estimations de la 
régression pour g” = 0 sans faire cette hypothèse, et que dans les 
deux cas on ait calculé les sommes des carrés des écarts des points 
expérimentaux de la régression, que nous noterons respectivement S’ 
et S. Il est clair que si l'hypothèse g” = 0 est vraie, alors S et S’ 
doivent être proches, bien que le vecteur S” soit quelque peu plus 
grand que $. Si, au contraire, l'hypothèse g” — 0 n’est pas vraie, 
alors S’ peut être notablement plus grande que S. On peut ainsi adop- 
ter, en qualité de mesure d’écartement des points expérimentaux 
de l'hypothèse g” = 0, le rapport U = S/S’. Si la valeur de U 
trouvée à partir des données expérimentales est proche de 1, alors 
on peut considérer que l’hypothèse g” — 0 ne contredit pas les don- 
nées expérimentales. En présence d’une petite valeur de VU, l'hypo- 
thèse g” — 0 concorde mal avec les données expérimentales et doit 
être rejetée. 

Dans le cas d’une variable vectorielle Y, les écarts des points 
expérimentaux de la régression sont caractérisés par une matrice 
dont les éléments sont les sommes des carrés et des produits des écarts 
des coordonnées des points expérimentaux de la régression, c'est-à- 
dire par la matrice S du paragraphe 3. On peut alors caractériser la 
grandeur de la dispersion des points expérimentaux par rapport à la 
régression par le déterminant de la matrice $ (qui est proportionnel 
au volume de l’ellipsoïde de dispersion). C’est pourquoi on adopte 
habituellement, en qualité de test pour vérifier l'hypothèse g” = 0 
dans le cas d’une variable vectorielle Ÿ , le rapport du déterminant 
de la matrice S, définie par la formule (33), au déterminant de cette 
même matrice S’ calculée dans l'hypothèse g” = 0, U = ]|S |/ 
/1S" |. 

4.2. Proposition auxiliaire. Calculons la différence S° — S. Soit 
G’ l'estimation de la matrice g’ dans l'hypothèse g” = 0, G®) et G() 
les estimations des matrices g” et g” obtenues sans faire l'hypothèse 
g” = 0, G = [GA GA]. 

> Représentons les matrices À et B respectivement sous une 
forme de matrice par bloc: 


PEUT ai 
A= ss B=[B" B"]. 
ba A22 
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Nous pouvons alors écrire l'équation (27) pour l'estimation G sous 
forme de deux équations: 


GHAu+G AB", GO Ai + GA» = B”. (51) 
L'équation (27) pour l'estimation G' est de la forme 
Ce A =D" (52) 


« 


Exprimons les matrices S et S”’ à l’aide de la formule (34): 
S = À (Yu—Gar) Ya => (Vr—Gzi Gr) Yr, 
kh=1 h=1 


S’ — 0 G'x}) v.: 


E 3 


En retranchant la première formule de la seconde, nous obtenons 
n n 
S'—S = À GHaYT+ À (GH—G') xx — 
k=1 h=—1 
—G2B8"T+(GH—G')BT. (53) 


Pour calculer la différence GU) — G’, retranchons l'équation (92) 
de la première équation de (54): 
(GU— 6") Au + 6247 = 0. 
Nous en tirons 
GH)— G! = — 624,14; 
En portant cette expression dans (53), nous obtenons 
S'—S=G2(B"T — A,,4::B"7). (54) 
La transformation ultérieure de cette expression passe par l’éli- 


mination dans (51) de la matrice G4). Pour cela, multiplions la pre- 
mière équation de (51) par A4:/4,, et retranchons-la de la seconde: 


G{2) (422 — Ao4 A7 A 12) = PB" — B'A "Ayo. 


Nous trouvons alors, compte tenu du fait que A,, = AT, AT = A1, 
AT, — 4, en vertu de la symétrie de la matrice À, que 


B"T— An A B'T:= (422 — 4214;; 412) Cr. 
En portant cette expression dans (54), nous obtenons en définitive 


S'—S = CG (432 — An At Aie) CUT. (55) 
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En vertu de ce que nous avons établi dans le point 3.6 pour les 
valeurs données zx,, . .., z, et pour une distribution normale de la 


variable Ÿ , les statistiques G et S sont indépendantes. La formule (55) 
montre que, dans ce cas, la matrice S° représente la somme de deux 
matrices définies positives indépendantes S et S’ — S = G)(4,: — 
— AA; Ae) GOT. 

4.3. Vérification des hypothèses dans le cas d’une variable observée 
scalaire. Considérons plus en détail le cas d'une variable aléatoire 
scalaire Ÿ. Dans ce cas, la grandeur S/D, suit une distribution du 
khi-deux à nr —r degrés de liberté et respectivement S’/D, suit une 
distribution du khi-deux à x — p degrés de liberté. Par conséquent, 
la grandeur (S’ — S)/D,, indépendante de S$, suit une distribution 
du khi-deux à nñn—p—(n—r)—(r— p) degrés de liberté. 
Il en découle que la variable U = S/S' suit une distribution f de 
paramètres (nr — r)/2 et (r — p)/2, et la variable 


__ (S'—S}/(r—p) 
= S/(n—r) 


suit une distribution Æ à r — p et n — r degrés de liberté fr-p, nr 0) 
(exemples 5.24 et 5.26). C'est pourquoi, pour vérifier |’ hypothèse 
g” = 0, on peut utiliser les tables de la distribution F. On détermine, 
à partir de ces tables, le quantile supérieur f, d’ordre 1 — & de la 
distribution F, f,_p.n-r (f), c’est-à-dire la valeur f, telle que P (F << 
< fa) = &. Si la valeur trouvée expérimentalement j de la variable 
F est notablement inférieure à f,, alors on peut considérer que l'hy- 
pothèse g” — 0 concorde avec les données expérimentales. Pour con- 
firmer la décision g” — 0, on peut, dans ce cas, en utilisant la distri- 
bution F ou la distribution B, calculer la probabilité que F prenne 
une valeur plus grande que la valeur f obtenue expérimentalement 
(respectivement la probabilité que U prenne une valeur inférieure à 
la valeur obtenue expérimentalement u = 1/[1 + f (r — p'(n — r)l). 
Si cette probabilité est élevée, cela sert d'argument complémentaire 
en faveur de l'hypothèse g” = 0. Si f >f,, l'hypothèse g” = 0 
doit être rejetée. 


Exemple 7. Vérifier, dans les conditions de l’exemple 4, l'hypothèse 
g = (0. 

Nous avons dans ce cas n — 30, r — 6, p — 1. et le quantile supérieur 
d'ordre 0,05 de la F-distribution f;.04 (f) est ne = 2,62. La valeur obtenue expé- 
rimentalement f est définie par la formule 


se ” S > (Yh—YY 


k=—= 


Cette valeur est calculée par le sous ppernme MULTR. Dans notre cas, elle 
est égale à 5,6608, c'est-à-dire qu'elle dépasse de près de deux fois la valeur 
critique fo,9s — 2; 62. C'est pourquoi l’hypothèse g — 0 doit être rejetée. 
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Exemple 8. Vérifier, dans les conditions de l'exemple 4, l'hypothèse 
ue la régression ne dépend pas de la première et de la quatrième coordonnée 
u vecteur x. 


Dans ce cas, nous avons nr = 30, r — 6, p = 4, et le calcul sur ordinateur 
à l’aide du programme MULTR nous donne s = 26,54161, s’ — 26,67073. Nous 
avons par conséquent 


s/(n—r) 26,54161/24 . 


Cette valeur est près de 60 fois inférieure à la valeur critique f, de la F-distri- 
bution fa + (f) correspondant à & — 0,95; fo.es = 3,40. C’est pourquoi on peut 
adopter l'hypothèse £1 = & = 0. Le modèle de régression optimale dans cette 
hypothèse sera déterminé par la formule 


ÿ (x) = 2,267 + 0,01 [0,744 1,497 5,363] (z’ — [316,17 241,80, 34,13]7). 


On obtient alors les estimations suivantes des écarts quadratiques moyens de la 
variable Y et des estimations des coefficients de régression ge, gs et £g5: 


Oy = 1,01282, O7, = 000172, O7, = 000551, Og, = 0,01258. 


Pour trouver le domaine de confiance pour a, g:, £&s et &s, (8e &s &s] = £', 
nous déterminons le quantile supérieur d'ordre Ü,05 de Ja F-distribution 
fase U); fo.es = 2,74. Le domaine de confiance pour a et g’ est alors déterminé 
par l'inégalité 
(2,267—g"2" —a)2+ (8 — g') 4" (g'— g')T <0,375, 
où 
7'—(316,17 241,80 34,13]7, g'—0,01[0,744 1,497 5,363], 


La matrice À” s'obtient à partir de la même matrice de l’exemple 4 en éliminant 
la premiére et la quatrième ligne et la première et la quatrième colonne. 
Attirons l'attention sur le fait que, dans ce modèle simplifié, les écarts 


quadratiques moyens des estimations g,, £g3 et g, sont plus faibles que pour le 


modèle complet de l'exemple 4, en particulier o,, est environ 3 fois moindre que 
pour le modéle complet. 


4.4. Vérification des hypothèses dans le cas d’une variable observée 
vectorielle. Passons maintenant au cas d’une variable vectorielle Y 
à m dimensions. Considérons tout d'abord le cas p = r — 1, autre- 
ment dit le cas de la vérification de l'hypothèse de l’indépendance de 
Y de l’une des coordonnées, la r-ième, du vecteur x. Dans ce cas, 


la quantité U = | S [/| S’ | suit une distribution $ de paramètres 
(nr — p — m)/2, m/2 et, par conséquent, la quantité 
__. ({—U)/m 
Fe U/(n—p—m) 


suit une distribution F àmet nr — p— m degrés de liberté f,n-p-m (). 
C'est pourquoi on vérifie l'hypothèse g” = 0 exactement de la même 
façon que dans le cas d'une variable scalaire Ÿ. 

Dans le cas où r —m<p<r—î1, la variable U peut étre 
représentée sous forme du produit de r — p variables aléatoires indé- 
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Fr 


pendantes X,, ..., X,_,: 
r—P 
U — [] Xi 


L=1 

où À, suit une distribution $ de paramètres (7 — p — m — L + 1)/2, 

m/2. Cela se démontre en calculant les moments de la variable U 
exactement de la même façon que dans l'exemple 5.45 [1]. 

Si pr — m, ce qui, bien entendu, n’est possible que dans le 

cas où r _ m, la variable U peut être représentée sous forme du pro- 
duit de m variables aléatoires indépendantes X,, ..., Àm: 


U = Il À}; 
l=1 


où À, suit une distribution B de paramètres (n — r — L + 1)/2, 
(r — p)/2 [1]. 

C’est conformément à ces distributions de la variable U que l’on 
résout le problème de la vérification de l'hypothèse g” — 0. Dans 
ce cas, la définition exacte des niveaux correspondants de significa- 
tion est impossible dans le cas général. Les méthodes de résolution 
exacte de ce problème dans certains cas particuliers, ainsi que des 
méthodes approchées, sont présentées dans [1]. 

Dans ce cas, le problème pratique de la vérification de l'hypothèse 
g” = 0 peut être résolu par l’estimation de la probabilité d’une va- 
leur U inférieure à la valeur w obtenue expérimentalement par la 
méthode de simulation aléatoire. Cela nécessite la simulation de 
variables aléatoires indépendantes suivant des distributions B et le 
calcul de la fréquence de l’événement U << u *). Si cette fréquence 
est suffisamment grande, alors on accepte l’hypothèse g” = 0. Dans 
le cas contraire, elle est rejetée. 

On vérifie exactement de la même façon l'hypothèse g” = g 
pour n'importe quelle matrice donnée g°. Il faut pour cela remplacer 
Y par la quantité Y — gx. 

En posant p — 0, on peut déterminer le domaine de confiance 
pour la matrice g, correspondant au niveau de confiance @, par 
l'inégalité U >œu,, où u, est déterminé de l'équation P (U > 
> u,) — «@. Cette inégalité définit un ensemble aléatoire de valeurs g 
qui, avec une probabilité &, recouvre la valeur inconnue de la ma- 
trice g. 

Si x est la valeur d’une certaine variable aléatoire X, alors, 
conformément à ce que nous avons dit dans le point 3.10, on vérifie 
aisément uniquement les hypothèses relatives à chaque élément de 
la matrice g pris séparément. En particulier, si la valeur g,, du coef- 


*) On dispose, dans [94], du programme BDTR pour calculer la fonction 
de répartition d'une loi $. 
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ficient de régression £g; nn au domaine de confiance 


Sn S2. 119 99 — S119 99 — S° 12 
2 Fe <a rs à L<n<Gtz == ; 
correspondant au niveau de confiance &æ — r (IT |<<t), alors 
on peut accepter l'hypothèse g, = g,94. Dans le cas contraire, elle 
est rejetée. 


Exemple 9. Dans les conditions de l'exemple 6, la valeur g — 
n'appartient pas à l’intervalle de confiance trouvé (0,27, 0,87). C’est pourquoi 
on doit rejeter l'hypothèse g = 0. 


4.5. Vérification des hypothèses relatives à la linéarité de la 
régression. La seconde hypothèse que l’on doit vérifier lors de la 
construction des modèles de régression est l'hypothèse de la linéarité 
de la régression. Pour vérifier cette hypothèse, il faut, pour chaque 
valeur x, observer la variable aléatoire Ÿ un nombre de fois suffi- 
samment grand. Supposons que la variable Ÿ soit observée 7, fois 
quand z = x), n, fois quand x = x), etc., n\ fois quand x = ztN), 
mm +...—+n\—= AN. Les valeurs de la variable - pour x = zx{P) 
seront notées Fr liussns p— 1 

Considérons tout d’abord le cas d’une variable déloie scalaire 
Y. Formons, exactement de la même façon que lors de la vérification 
de l'hypothèse relative à l'indépendance de Ÿ d'une partie des coor- 
données du vecteur z, deux sommes d'’écarts quadratiques des points 
expérimentaux de la régression, l’une, S, dans l'hypothèse de la li- 
néarité de la régression: 


N n} 
2; D) (ip Gr}, 
et l’autre, S,, sans faire cette hypothèse : 
np 
=> DrP-Fep, Yo ST y. 
Ù 


Si le rapport U = S,/S (qui, évidemment, ne peut être supérieur à 
1) est proche de 1, alors on peut considérer que l'hypothèse de la 
linéarité de la régression ne contredit pas les données expérimentales. 
Quand la valeur de U est faible, cette hypothèse doit être rejetée. 
Dans le cas d’une variable vectorielle Y, on peut adopter, en qua- 
lité de critère de vérification de l’hy pothèse de la linéarité de la ré- 
gression, le rapport U = |S,]| / | S | du déterminant de la matrice 


np 


So= à à (ri — YO) (TE = ut 
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au déterminant de la matrice 


N "p 
S= D D (YP)— Gr) (YP — Gr, 
pi k=1 


On démontre exactement de la même façon que dans le cas pré- 
cédent que si la variable Ÿ suit une distribution normale la diffé- 
rence $ — S, est indépendante de S, et, dans le cas d’une variable 
scalaire Ÿ, les variables S, S, et S$ — S, suivent des distributions 
du khi-deux à respectivement nr — N, n —r et N — r degrés de 
liberté. Cela fait que la variable aléatoire U suit une distribution f 
de paramètres (W — r)/2, (n — N)/2 et respectivement la quantité 


A—U)/(N —r) 
Re D 


suit une F-distribution fy-rn-n () (exemple 5.26). On vérifie, à 
l’aide de ces distributions, l’hypothèse de linéarité de la régression 
exactement de la même façon que l'hypothèse g” — 0 dans le cas 
d'une régression linéaire [24]. 

De même, la vérification de l'hypothèse de linéarité de la régres- 
sion, dans le cas d'une variable vectorielle Ÿ , se ramène à l’applica- 
tion des mêmes distributions que pour la vérification de l'hypothèse 
g” = 0 en présence d'une régression linéaire. 

4.6. Choix du type du modèle de régression. Etudions maintenant 
la question du choix du modèle de régression. La solution de ce 
problème se ramène à déterminer les variables, dont doit dépendre 
la variable aléatoire Ÿ qui nous intéresse, et un nombre fini de fonc- 
tions de ces variables, que l’on doit inclure dans la composition du 
vecteur x. Lors de la résolution de ce problème. on doit rechercher 
un compromis raisonnable entre deux tendances contradictoires. 
D'une part, il est naturel d’essayer de tenir compte d'un nombre de 
facteurs le plus grand possible afin d'obtenir un modèle reflétant de 
la manière la plus complète le phénomène étudié; d'autre part, il 
est toujours souhaitable que le modele soit suffisamment simple. 
L'application pratique d’un modèle trop compliqué est liée à la 
nécessité d'obtenir un grand volume d'informations (on doit mesu- 
rer ct déterminer chaque fois les valeurs de toutes les variables figu- 
rant dans le modèle) et effectuer des calculs compliqués, exigeant de 
grandes dépenses en temps machine, ce qui, en définitive, entraîne 
un coût élevé ct des difficultés d'application du modèle. En outre, 
la précision et l'exhaustivité du modèle compliqué peut s'avérer 
illusoire du fait du volume limité de l’information accessible dont 
on doit se satisfaire lors de l'élaboration du modèle. Par ailleurss 
l'application de modèles trop simples peut conduire à de grossiere, 
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erreurs. C’est pourquoi on doit utiliser des modèles de complexité 
raisonnable. Comme toujours en pareil cas, la solution de compromis 
ne peut être univoque. Plus encore, deux modèles différents obtenus 
par suite d’une solution de compromis du problème par différentes 
méthodes sont difficilement comparables entre eux et il est impos- 
sible de préférer l’un d’entre eux. C’est pourquoi nous ne parlerons 
pas du meilleur modèle, et nous appellerons un modèle obtenu par 
suite d’une solution de compromis un modèle convenable, en sous- 
entendant par ce terme qu'il vérifie suffisamment bien aussi bien 
notre exigence d'une description exhaustive du phénomène que 
l'exigence de simplicité. 

Les études expérimentales que l'on conduit afin d'élaborer un 
modèle doivent être précédées par la définition de l’ensemble com- 
plet des variables qui peuvent être incluses dans le modèle; on les 
divise alors en variables d'entrée (qui entreront dans la composition 
du vecteur x et dont dépendront les coordonnées du vecteur x) et en 
variables de sortie (les coordonnées du vecteur aléatoire Y). Ce n'est 
qu'après cela que l’on peut réaliser les épreuves afin d'obtenir les 
valeurs des variables d’entrée et de sortie. 

On élabore habituellement un modèle pour chacune des variables 
de sortie (chacune des coordonnées du vecteur YŸ) séparément, et, 
ensuite, ces différents modeles scalaires ainsi obtenus sont réunis 
dans un modèle vectoriel. 

Pour élaborer un modèle de régression convenable à partir du 
résultat des épreuves, on peut appliquer le procédé suivant. 

Tout d'abord, on élucide le caractère de la dépendance d'une 
variable de sortie de chacune des variables d'entrée au moyen d'une 
inspection visuelle grossière des graphiques correspondants élaborés. 
Cela permet de déterminer les fonctions des paramètres d'entrée 
quil est rationnel d'inclure dans la composition du vecteur x. On 
pourra tenir compte approximativement des principales non-linéa- 
rités du modèle par rapport aux variables d'entrée (cf. remarque à la 
fin du point 2.7). 

Après le calcul des valeurs des coordonnées du vecteur x obte- 
nues par suite des épreuves, on effectue le calcul des coefficients de 
corrélation empiriques de toutes les coordonnées du vecteur r avec 
le vecteur de sortie }’. Parmi les coordonnées du vecteur x on en choi- 
sit une, pour laquelle le coefficient de corrélation avec Y prend la 
plus grande valeur en module, et on construit le modèle ne compor- 
tant que cette unique coordonnée. Cela termine le premier pas. Les 
pas suivants sont effectués d'après un schéma analogue. 

À chaque pas on calcule les coefficients empiriques de corrélation 
de toutes les coordonnées du vecteur x non encore incluses dans le 
modèle avec le reste, c’est-à-dire avec la différence entre la variable Y 


et son estimation } que l'on a construit au pas précédent de l'éla- 
boration du modèle. Parmi ces coordonnées du vecteur x, on choisit 
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celle qui correspond au plus grand coefficient de corrélation en 
module. Après cela, on construit un nouveau modèle de régression, 
qui inclut maintenant la coordonnée ainsi choisie et on vérifie l'hypo- 
thèse d’une possibilité de négliger la dépendance de chacune des 
coordonnées précédemment incluse dans le modèle. Cela nous per- 
met d'adopter un modèle de régression définitif pour ce pas. 

Le processus se termine et l’on adopte un modèle de régression 
définitif quand on aura essayé toutes les coordonnées du vecteur x 
ou quand l'inclusion de nouvelles coordonnées conduira à l’augmen- 
tation de l’estimation de la dispersion du reste, c’est-à-dire à l’aug- 
mentation de l'erreur quadratique moyenne d'estimation de la 
variable Y à l'aide du modele élaboré. 

La méthode d'élaboration d’un modèle convenable de régression 
que nous avons exposée représente une des variantes de la régression 
pas à pas. Elle donne habituellement de bons résultats [24] *). 


Exemple 10. Dans les conditions de l'exemple 4, la méthode pas à pas 
que nous avons exposée conduit à inclure dans le modèle la seconde, la cinquiè- 
me, puis la troisième coordonnée du vecteur r. ce qui nous amène au modèle 
de l’exemple 8. Les tentatives d'inclure la première et la quatrième coordonnée 
conduisent à l’augmentation de l'estimation de la variance de la variable Y, 
c'est-à-dire à une détérioration de la précision du modèle. 


$ 5. Analyse de la variance 


9.1. Variables qualitatives (facteurs). Dans la théorie, que nous 
avons exposée aux $$ 1 à 4, les coordonnées du vecteur x peuvent 
être aussi bien des variables à variation continue que des variables 
prenant un ensemble fini de valeurs possibles. Toutefois, dans cer- 
tains problèmes pratiques, la variable aléatoire observée Y dépend 
de certains facteurs qu'il est impossible de caractériser par un en- 
semble de variables scalaires mesurées, mais que l’on peut simplement 
décrire par des mots. Un exemple classique de ce genre concerne la 
dépendance de la récolte de la nature du sol et de la manière dont 
son traitement est effectué (par exemple, en fonction de la nature de 
l'engrais utilisé). Dans ce cas, la variable aléatoire observée est le 
poids de la récolte qui dépend de deux facteurs: la nature du sol 
et le procéde de son traitement. Le but de l'étude consiste à élaborer 
un modèle statistique de cette dépendance. Les méthodes de résolu- 
tion de problèmes semblables constituent le contenu de l'analyse de 
variance ct de la théorie de la planification des expériences, dont les 
bases ont été posées par Fisner [112, 116]. 


*) On dispose, dans [94], d'une autre variante d'analyse de régression pas 
à pas définie par le programme standard STPRG. 
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Le problème principal de l'analyse de variance consiste à esti- 
mer, à partir des résultats des observations d’une certaine variable 
aléatoire Ÿ’, la dépendance de son espérance mathématique de fac- 
teurs qui ne sont pas susceptibles d'une description quantitative, 
et de sa dispersion (sa matrice de variances-covariances dans le cas 
d'une variable vectorielle Y’). Les valeurs concrètes de chaque fac- 
teur sont habituellement appelées modalités de ce facteur. Nous re- 
marquons que dans les problèmes d'analyse de la variance certains 
facteurs peuvent être susceptibles d'une caractérisation quantita- 
tive, mais dans ce cas les épreuves ne peuvent se dérouler que pour 
certaines valeurs fixées de ces facteurs. 

5.2. Plan d'expériences complet à deux facteurs. Considérons 
tout d’abord le cas de deux facteurs F, et F,. Supposons que la va- 
riable observée Ÿ se manifeste pour u modalités du facteur F, et v 
modalités du facteur F,; pour chacune des uv combinaisons des moda- 
lités de ces facteurs, Ÿ n'est observé qu'une fois. Un tel schéma 
d'observations est appelé plan d'expériences complet à deux facteurs. 

Soit Y';; la valeur de la variable Ÿ, obtenue pour la i-ième moda- 
lité de F,et la j-ième modalité de F,(i = 1, ..., u;j — 1, ..., v). 
Supposons que l'espérance mathématique de la variable aléatoire Y';; 
puisse être représentée sous la forme 

MY y = bo + bu+besy (G—=1,...,p; j —=1,..., 0%), 

(56) 
où b, est la part de l'espérance mathématique de la variable aléa- 
toire Ÿ commune à toutes les modalités de deux facteurs, b,; et b.; 
les parts conditionnées par l'influence de la i-ième modalité du fac- 
teur F, et la j-ième modalité du facteur F, respectivement. Suppo- 
sons en outre que la matrice de variances-covariances À, de la va- 
riable Ÿ ne dépende pas des modalités des facteurs F, et F.. La rela- 
tion (56) exprime l'hypothèse, habituelle en analyse de variance, 
d'additivité de l'influence des deux facteurs. 

On conçoit aisément que le paramètre b, puisse être choisi arbi- 
trairement : en particulier, on peut le prendre égal à 0. Toutefois il 
est plus commode, pratiquement, de choisir b, égal à la valeur 
moyenne MY pour toutes les combinaisons possibles des modalités F, 
et F,. Dans ce cas, b,; et b,; seront liés par les relations 


lL 
À by, =0, br, = 0. (57) 


Le problème d'élaboration du modèle dans ce cas se ramène à l’esti- 
mation des variables b,, b,; (i — 1, ..., u) et b,; ( =1, ..., v) 
et de la matrice X,, à partir des résultats des observations. 

5.3. Réduction de ce problème à celui de l’estimation d’une 
régression linéaire. Remarquons que les variables MY,, (i = 1, ... 
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.., Bb; j = 1, ..., v) représentent les valeurs de la fonction li- 
néaire 
Î (x) — bot + biiTe + ... + Di,u-1Tu + 
+ DaiTu+1 Se US Da,v-1Zn+ v-2 
de u + v — 1 variables pour lesquelles on a toujours x, = 1, alors 
que les autres variables prennent l’une des valeurs 0, 1, —1. 
> En effet, en vertu de (57), quand x;41 = zi+y = 1, zy = 0 
(h=2,...,p+v—-1;, hæi+i, u + )j) on a 
f (2) = 60 + bis + bay = MY; 
G=1,...,u—1;j=1,...,v—1), 
quand Zi, =1,2n =0(hR=2,...,—1;,h#it+i1), 
Zn=—1h=u+1i,...,p+v—1) 
on a 
Î @) = bo + bis — Ver — + + + — Day = 
= bo + bi; + be, — MY,;, 
G=1,...,u—1), 
quand Zi; = 1,2 =0(h—=p+1,...,p+v—t1; 
khZÆu + )j), Lit —= —1 (ë = 1, ...s U — 1) 
on a 
f(x) = bo — bn —... — din + des = 
= bo + bin + des = MY; 
j=1,...,v—1), 


quand Z =... — Zy+y-y— —1 On a 
f (x) = bo — bn — ee — Diu-r — Va — ee + — Da,y-1 — 
= bo + bin + boy = MY nv. < 
Ainsi, le problème de l'analyse de variance se ramène au problème 
d'analyse de régression linéaire du paragraphe 3 pour 
gr = beta + bite +... + Diunitu + Boituta +... 
e. ee + Da,v-1Tu+v-1e 
Dans ce cas, les coordonnées du vecteur x (à l'exception de x, = 1) 
ne peuvent prendre que l’une des trois valeurs possibles : O0, 1 et —1. 
Par conséquent, les formules donnant les estimations des paramè- 


tres b,. b:, b:, et K°, et leurs domaines de confiance correspondants 
peuvent être obtenues à partir des formules générales du paragraphe 3. 


Nous obtenons de la sorte les estimations sans biais optimales B,, 
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Bu et B, des paramètres b,, b,; et b.;: 


H 
1 
B=— > » Yi 
ii j=1 
l V 
Bui=— » Yi5—Bo (i=1,...,u), (°8) 
… 
PB; -+5 Yi;=B, (=, ss v). 


= 1 


L'’estimation sans biais de la matrice de variances-covariances Xy, 
s’obtient en vertu de (37) en divisant la statistique 


L Ov : 2 À ” 
S= > 2 (Yu Bo— Bii— B2)) (Yi Bo — Bis — B25)" 


Ld 
I 
— 
LU 
L 


par le nombre d'épreuves uv diminué par la dimension u + v — 1 
du vecteur x, c’est-à-dire par (u — 1) (v — 1): 


v 


hH 
| # LS 
=R=ne-n 2 2 lu—bo— bu 


i=1 j=i 
— B23) (Yi5— Bo— Bai — Bay)". (59) 


Dans ce cas, la matrice À possède une structure diagonale par blocs: 


2V VV... 


uv0O 07 9 
4=| 04 0 |, 4=| """"" ”|, 
0 0 4 VV 2v 

2h u 


4 U 2u ... 


où les blocs comportant des Ü représentent des matrices dont tous 
les éléments sont des 0, la matrice À, est de dimension (u — 1) X 
X (u — 1) et 4:, (v — 1) > (v — 1). C'est pourquoi, en vertu de 


(32), le vecteur aléatoire B, et les matrices aléatoires b, = [B1 se 
- Binl et Be = [B:1... B2,] ne sont pas corrélés. Nous obtenons 
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alors, à partir de (32), en prenant en considération le fait que 
u—1 —1... —1 


_{ 1 — 1 u— 1 — À 

Te RE 
1 1... p—i 
v—1i —1 — À 

: 1 —1 v—1 — À 

re SR 


les formules correspondantes pour la matrice de variances-covariances 
Æ, du vecteur B,: 

Ko = K,/uv, (60) 
pour les matrices de variances-covariances et de covariances croi- 
sées Ki} des vecteurs Bu, a. bp: =: 


en _ Hi K (1) Ky J., / | 4: h ) 
patg, Rue Get ut; he 0 (69 


et pour les matrices de variances-covariances et de covariances croi- 
sées A? des vecteurs Ba . PRE 


_ —1 is K 
A5 = Ar =, 
(j,l=1,...,v—1; læj). (62) 


Ces formules peuvent également être étendues par symétrie aux vec- 


teurs B,, = ph. — . — B.. u-1 et D = —B; — . — B: 1 
qui sont les estimations sans biais des paramètres bin et b,,. Les 
estimations sans biais des matrices X,,, Ko et A‘; s'obtiennent en 
remplaçant dans (60)-(62) la matrice Æ, par son estimation sans biais 


k. tirée de (59). 
* Trouvons également les estimations des paramètres 


1 1 
Ki=—— > bubiis Kr=—— ; 2 b2;, (63) 
ini j=1 
que l’on appelle habituellement covariances des moyennes dues aux 


facteurs F, et F, respectivement. Il est naturel d'adopter, en qualité 
d’estimations de X, et Æ,, les moyennes statistiques correspondan- 
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tes suivantes : 


K?= 


ÿ 
| D DT 

K35 — v—1 > B:;Bo;. 

mi jen i 

Toutefois, ces estimations sont biaisées. Pour obtenir des estimations 

sans biais de K, et X,, trouvons l'espérance mathématique de K*. 


Comme les B,, sont des estimations sans biais des paramètres b,; 


et, par conséquent, sont liées par les mêmes relations (57) que b.:, 
nous avons, en vertu de (61), 


[NS h u 
MY BuBn=M D (Bu bus) (Bu — bu) + D budti = 


i=i {mi EE | 


[ET 
— UM E— uv Ky + D bubt = E — Ky + D bibi. 


i=1 1={ 


C'est pourquoi nous obtenons 
1 


Cette formule montre que pour éliminer le biais de l'estimation K*, 


il suffit d’en retrancher la quantité K,/v. Nous obtenons alors, com- 
pte tenu de (59), l'estimation sans biais de X,;: 


[Ts 
ki — —— [ > Bab — |. (64) 


Par symétrie, nous obtenons l’estimation sans biais du paramètre K,: 
1 : S 
Led Lol AT ss 
TEA 2 Bab |. (65) 


Dans le cas d’une distribution normale de la variable Y, il dé- 


coule de la non-corrélation des estimations Bo, B, et B, leur indé- 
pendance (paragraphe 3.5). Il en résulte compte tenu de ce que nous 
avons démontré au paragraphe 3, que les statistiques 


S5= LV (Bo — bo) (Bo— bo)”; 


# mn H m Led 
Si — (Bi —01) À (B1— 04)" == V _ (Bis — Os) (Bis — br)" 


V 
Sa = (B2— 0e) 42 (B2—b2) =U à (B25— bas) (B25 — bas)”. 
1=1 
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n Ov ——” h L . À 
SZ 2 (V5 Bo— Bi — Bag) (Yi — Bo— Bi — B25)T 
sont indépendantes et suivent une distribution de Wishart w.M (s), 
Wim (S)s Wvym (S) Et Wiu-1)(v-1)+1.m (S) respectivement. Dans le cas 
particulier où la variable Y est scalaire, les variables S,/D,, S,/D,. 
S,/D, et S/D, suivent une distribution du khi-deux à 1, p — 1, 
v — 1 et (u — 1) (v — 1) degrés de liberté respectivement. 

Dans ce cas, grâce à l'indépendance de S,, S, et S,, apparais- 
sent des possibilités complémentaires complétant les méthodes géné- 
rales d'élaboration des domaines de confiance pour b,, b., b. et K, et 
la vérification des hypothèses relatives à b,, b,, b. des paragraphes 3 
et 4. En particulier, dans le cas où la variable aléatoire Y est sca- 
laire, pour trouver les domaines de confiance pour b,, b, et b, séparé- 
ment et pour vérifier des hypothèses qui les concernent, on peut uti- 


liser le fait que les rapports 
Qu — 1) (4 — 1) 802$,  (v — 1) SAS, (un — 1) S,/S 


suivent une F-distribution f1.çu-1)v-19 Us fu-1. u-ntv-0 () et 
fv-1.çu-1 (v-1 O) respectivement. Cela donne, pour les matrices D, 


et b,, les domaines de confiance 


u 
? S 

2 Bird) < fe Ty » 

. | (66) 

> (Ba; — b2j)? << leu D 


j=1 


où f. désigne le quantile supérieur d'ordre 4 — &« de la F-distri- 
bution fh-1, cu-1v-19 OU fv-1,(u-1v-1) respectivement. Pour vérifier 
l'hypotèse relative à l'égalité de b,; et b.; à des valeurs données 
(habituellement 0), il suffit d'établir si ces valeurs vérifient ou non 
l'inégalité correspondante (66). Dans le premier cas, l'hypothèse est 
acceptée; dans le second cas, elle est rejetée. 

On effectue exactement de la même façon l’analyse de variance 
pour un nombre quelconque de facteurs. Dans ce cas, si l’on dispose 
d'un plan d'expériences complet à N facteurs, pour lesquels la variable 
Y est observée pour toutes les combinaisons des modalités des fac- 
teurs, on peut, outre l'influence séparée des facteurs, tenir compte éga- 
lement de leur interaction deux à deux, trois à trois, N —1 à N — 1. 
Par exemple, dans le cas d'un plan d'expériences complet à 3 facteurs, 


on peut supposer que 
MY jun = Bo À di + Pej + ban + Diois + bisin + Vasgn. 
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Exemple 11 *). On donne les résultats d'un plan d'expériences com- 
plet à quatre facteurs pour quatre modalités du premier facteur, trois du second 
et du troisième et deux du quatrième: 


1 2 14 9 13 29 16 11 3 2 7 5 3 
2 2 7 11 5 8 28 18 10 6 6 6 5 9 
3 9 10 27 8 28 16 11 7 8 9 8 15 


En tenant compte des interactions de tous les facteurs deux à deux et trois 
à trois, on élabore un modèle de la forme 


MY ijhi= bo+ byi + dej + bah + bar bisis + bisih + bras + 
+ Dosjk + boat + dant + bissijh + disait + Dbisaihi+ UEPYELTE (1) 
où les big, es Dioijs ce, Vysnijh,s <<. Vérifient des conditions du type (57): 


> bui= Ÿ bye > bn = > bai =0, 

î j 
> biais = Ÿ bisij =... =2 bas = D) bsan=0, 
î j l 


D Desk = > byesifh = > bissiih =. 2 basashi = 0. 
1 j R 


Le nombre de paramètres pa A boy Dir + + +» Dassin (à = 1, 2, 3, 4; 
j, k = 1, 2, 8; 1 = 1, 2) r — 60. Les estimations des paramètres b,, bi;, . .. 


.….s Dyggjs + + +» Dyosijns + - - SOnt définies par les formules 
Ru À à À x 
BY = DR Bi=-x » Yajhi—Bos +. 
i,5,R,l 3h, l 


à 4 _ An a 
Bisis = D) Yisni— Bo—Bri— Bag, 
LA 


a Â n n # nm n # n 
Bissijh = DAT — Bo—Bii— Brj— Bsh— Bioij— Bisin — Bosjns  -« 
l 


*) Les données initiales de cet exemple et les résultats des calculs effectués 
sur ordinateur à l'aide du programme ANOVA des sommes des carrés sont emp- 
runtés à [94]. 

Le programme d'analyse de variance ANOVA comporte 3 sous-programmes : 
AVDAT, AVCAL, MEANQ. Ce programme effectue Îles calculs adéquats pour 
l'analyse de variance des plans factoriels comportant un nombre de facteurs 
jusqu’à 6 et même pour un plus grand nombre de facteurs en cas de modification 
correspondante du programme [941]. 
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Les sommes 


S = > (Yijni—Bo— Bi —Baj — Ban — Bai — Bit j — Bisir — 


2,3,h,1 


— Biatt—Bosjn — Basji — Bsshs — Bissign — Bisutsi— Bisaihi— Bosajnt) 


S,=18 > (Bii—bui), 
À 
Sa = 2À 2 (Bsh—bsn)?, 


512 —=6 à (Bi2t3— Diet, 
4,3 
S14 = J5 (Bien — bien)? 
i, L 
Su =12 5 (Brun — ban), 
j,l 


Si2s=2 » (Biastÿh —brasin)?, 
4,j,h 


Sissa=3 pà (Bisutht—Disutnt), 


4,R,l 


Se — 47 (B:3 — Des)”, 
Sa =36 2 (Bu —bu}, 


S13—6 >. (Bisik —bisin)?, 
4,R 


Sa3 = 8 9, (Bash - bisjn)2 
jh 


Sgs = 12 D (Bsanr —bsarr)?, 


S128=3 ÿ (Bisatfi— bisatgi)?, 
4,2,l 


Ses = 4 >. (Basant — besasnt)* 
j,h,l 


Cd 
e— 


sont, dans le cas d’une distribution normale de la variable Ÿ et d’une variance 
D indépendante des facteurs (constante), _indépendantes et suivent respective- 


ment des non du khi-deux à k = 12, k, = 3, ke = ks = 2, ka = 1, 
ki = kis = 6 = 3, ke = 4, a 2 kies = 12, Kio = ki = 
et koss = 4 de de liberté. 
Explicitons les résultats des calculs. 
1) Les estimations des paramètres bg, bigs - + L: bo = 9,40278, 
et les autres estimations sont données dans Ÿes tables e Dages 373 et 374. 
2) Les valeurs des sommes S, Su pour by =... — bosgjns = 0 


et l'estimation de la variance de \a variable Ÿ sont: s — 
— 229,04166, s, — 722,69434, sy = 55,11110, sa — 141,68054, s12 — : 1382, 08325. 
Sis = 42, 00000, Sie = 18, 81944. Ses = 13, 13889, Sa = "6, 02778, 59e —= 40, 77777, 


5193 =4140,75000, sie, = 176,972214, siss — 50,55554, Sosa — 62,63889, D, 
—"154,02777/12 — 15,58566. 

3) Les domaines de confiance pour les paramètres b,;, .. 
respondant au niveau de confiance œ& — 0,95 sont, dans Mot d'un 
distribution normale de la variable Y (en tenant compte du résultat de De 
ple 5.24 relatif à la distribution des rapports (S,/3)/(S/12), . .. sont: 


48: ((2,041— by) (0,653—b12) + (0,153—ba3)° + (2.847-+ b14)] < 
£ _ fe 151,02777 = 3,40 151,02777 — 130,963, 


He 


42 1(0,861— baug1)® + (0114 — ban) (0,972 bars) + 
+ (0,881 + bas1a)? + (0,110 + bsa22)° + (0,972 — bgsga)?] < 
< _ fa: 151.02777 = -Ÿ.3.88. 154,02777 = 97,670, 
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4) La vérification des hypothèses relatives à l'indépendance de la variable Y 
des facteurs. 


4, 3, R, 1 | b,; | Des | bar | CT 


Î 

14 |—5,749| 10,043]—4,291|-—0,667| 0,834 |—0,166 || —0,374 0,376 
2 1,806 |—1,903| 0,096] 0,888| 0,055 |—0,946| —0,431 0,431 
3 0,806 |—1,403| 0,597—0,4451—1,111| 1,555| 0,847 | —0,847 
4 3,139 |—6,736| 3,597] 0,224] 0,222 |—0,445| —0,042 0,042 


b 23JR 5 ï b s4khl 


D 

© 
CS 
— 
=» 
D 


j j k 

1 0,236| —0,555| 0,320] 1 |—0,138| 0,14 1 0,861! —0,861 

2 —0,264| 0,820] —0,5551 2 |—0,263| 0,265| 2 0,111! —0,110 

3 0,027 —0,261| 0,236] 3 0,403|—0,40 3 |—0,972 0,972 

. 

k K | 

j Î | 2 | 3 
—1,625| 2,208|—0,583] 0,999/—1,543| O, 0,623|—0,668| 0,041 


0,153] —0,513] 0,363] 1,611] 0,070|—1,682)—1,763| 0,446] 1,312 
—0,014|—1,180| 1,195|—3,223| 1,735] 1,488] 3,236|/—0,555|—2,680 
1,487|—0,513|—0,972| 0,611|—0,264|—0,347}—2,097| 0,778| 41,320 


EE © D = +. 
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è 12461 


—0,627 —0,293 —0,918 0,290 
—2,236 0,765 —1,473 —0,764 
2,486 0,819 3,305 —0,820 


0,375 —1,292 —0,917 


Lud 


CÉPYTIT 


0,249 
1,474 
—1,472 
—0,249 


—0,250 
0,861 
—0,028 
—0, 583 


1,055 —0,737 0,319 —1,057 0,736 
—0,320 1,388 1,068 0,318 —1,389 
—0,729 —0,653 —1,389 0,732 0,653 
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Les valeurs 0 des paramètres Dhs Épsins LUTTE Dosjhs Vasjts bsant bigstsh 
Dyoatfls Oysatht, Dagaynt appartiennent aux domaines de confiance correspondants 
(on fe v rifie aisément en portant les valeurs obtenues des sommes s2, sis, Sig 
Sogr Sogs San S193r Si24r S134» 5asa Calculées pour les valeurs O des paramètres bs;, 


bisihs Oiatts Dasjhs Posts Osants Duasihe Droatjts Disathis bessjnr dans les premiers 
membres es PÉralités déterminant les OTAaines de confiance). C'est pourquoi 
on peut adopter l'hypothèse d'indépendance de Y du troisième facteur, pris 
séparément, et en combinaison avec tout autre facteur; de même, on peut ac- 
cepter l'hypothèse de dépendance additive de Y du quatrième facteur (c'est-à- 
dire d'absence d'interaction du quatrième facteur avec le premier et le second). 
Cela nous conduit au modèle simplifié 


MY ijht = bo + bi; + be + bu + Dioij- (11) 


Dans ce cas, la nouvelle somme S représentera la somme S + S, + St 
1= 


+ Sig + Sos + Sos + Sas + Sios + Sios + S134 et sa distribution du 
deux aura 59 degrés de liberté (fe nombre de paramètres indépendants bs, bus, 
Dejr bars Orayy (= 1, 2, 8, 4; j = 1, 2, 3; 1 = 1, 2) r — 13). L'estimation 
de la variance de la variable Y sera 
D = TES 42 gauar, 


et les domaines de confiance pour les paramètres b;;, b2j, bu et bi:1j Sont déter- 
minés par les inégalités 


18[(2.011—D,1)2L(9,653—b,2)2 + (0,153— ba)? + (2.847 + b,,)°] < 


3 3 
CS " Le 9 == —— « 5 . 2 J = 2 . , 


Les résultats obtenus illustrent notre affirmation du point 4.6 relative au 
fait qu’un modèle plus complexe peut s'avérer moins précis qu'un modèle plus 
simple en présence d’un volume donné d'informations. Dans ce cas précis, le 
modèle simple (II) est pratiquement non moins bon que le modèle complexe (1) 
en ce qui concerne la précision, alors que les estimations de la variance de la 
variable Y (la variance résiduelle dans le cas d’un modèle déterministe) sont 
pratiquement identiques; en outre, les domaines de confiance pour les paramè- 
tres du modèle (11) sont même quelque peu plus réduits que ceux du modèle (1). 


9.4. Plans d'expériences incomplets. Il est rare que l'on puisse 
réaliser des plans d'expériences à plusieurs facteurs complets du fait 
de l'impossibilité pratique de réaliser des observations pour toutes 
les combinaisons possibles des modalités des facteurs. C’est pourquoi 
les plans d'expériences incomplets ont une importance particulière- 
ment grande pour la pratique. Il se pose alors le problème du choix 
optimal des combinaisons des modalités des facteurs pour un nombre 
donné d'expériences afin d'obtenir des variances minimales des esti- 
mations des paramètres. Les méthodes de résolution de ces problèmes 
ont été élaborées en théorie de planification des expériences [7, 8, 
9, 38, 63, 108, 116]. 

Le plan d'expériences incomplet le plus simple à trois facteurs 
est celui que l’on appelle plan du carré latin. Dans ce plan, tous les 
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trois facteurs comportent un même nombre de modalités u et pour 
chaque combinaison des modalités de tout couple de facteurs l’ob- 
servation n’est effectuée que pour une seule modalité du troisième 
facteur. Dans ce cas, le nombre d'observations est alors égal à u° 
au lieu de u° dans le cas du plan d’expériences complet à trois fac- 
teurs. 

Il est clair que pour les plans incomplets il n’est pas possible 
d'estimer toutes les interactions des facteurs du fait de l’insuffi- 
sance du nombre d'observations. Par exemple, dans le plan du carré 
latin, il est impossible d'estimer les interactions entre facteurs étant 
donné que pour chaque combinaison de modalités d’un couple de 
facteurs on ne dispose que d’une seule observation. 

L'analyse de variance pour les plans incomplets est réalisée 
exactement de la même façon que pour les plans complets. La seule 
différence est que la sommation, lors du calcul des valeurs moyennes, 
est effectuée non pas pour toutes les combinaisons possibles des moda- 
lités des facteurs, mais uniquement pour celle pour laquelle les ob- 
servations sont effectuées. On modifie en conséquence les dénomina- 
teurs et les nombres de termes dans les expressions des moyennes. 

En adoptant pour le plan du carré latin 


id eh Lies. (G, j, k=—1,...,u), 
bi= À buy= 2 ÿ bax = 0, 


nous obtenons les estimations sans po des paramètres b,, bis, 
boy bar et K,y . 


B= x 2 Vin Bu D ie, 
T1(i) (67) 
By=— > Yi9ù — Bo By = + D Tim — Bo 
To(3) 13h) 
D S 
K, = 


(u—1)(u—2) 
S — 2 (Yi — Bo— Bar — Bay — Ban) X 


X (Pi bi=B;; Bb). (65) 


où / désigne l’ensemble des combinaisons des indices à, j, À pour les- 
quels sont réalisées les observations, Z, (i) désigne la combinaison 
des indices j, pour lesquels pour un à donné sont réalisées les ob- 
servations J,(i) — {(j, k): (i, j, k) E I}; on définit de la même 
façon J, (5) = {(, A): (, j, 4) € 1} et Jak) = {(i, 1): (, j, À) € 


€ 1}. Le vecteur B, et les matrices B, = [B,1, ..., Bu] (p = 1, 
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2, 3) ne sont pas corrélés, et les matrices des variances-covariances 
des vecteurs B,, B;1, B:3 et Bax sont définies par les formules (60) 
à (62) pour v = u. Les estimations sans biais de ces matrices s’ob- 
tiennent en remplaçant dans (60) à (62) la matrice K,, par son esti- 
mation sans biais tirée de (68). Les estimations sans biais des cova- 
riances entre les moyennes dues à chacun des trois facteurs 


LU 
1 
LS DETTE > bpibpi (p = 1, 2, 3) 


im i 


sont définies par la formule 


ms 

ES 4 [ES ñ# S - 

Kp= > Bnbn—— | (p=1, 2, 3). (69) 
im 


Conformément à la structure diagonale par blocs de la matrice À 


du paragraphe 3, la quantité (G — g) À (G — g)T représente dans 
ce cas la somme de quatre termes: 


So = p? (Bo— bo) (Bo— bo) ’ 


no : (70) 
Sp=h 2 (Bpi— pi) (Bpi— dpi), (p=—1, 2, 3). 


Dans le cas d’une distribution normale de Ÿ, les variables B:, 


B;, B:, PB, et S sont indépendantes. Cela fait que les statistiques S,, 

1» Sos Sa et S sont indépendantes et suivent une distribution de 
Wishart wem (s), Wim (s) (la distribution conjointe de S,, S, et S:) 
et Wu-1çu-2)+1,.m (s). Si Ÿ estune variablescalaire, alors S,/D,,S,/D,, 
S2lDy SslD, et S/D, suivent une distribution du 4° à 1, u — 1 
et (1 — 1) (1 — 2) degrés de liberté. On définit alors, conformé- 


ment à cela, le domaine de confiance pour be: P, B: et B, et on véri- 
fie les hypothèses qui les concernent séparément et pour toutes com- 


binaisons. 
Le lecteur trouvera un exposé plus détaillé des méthodes d'’ana- 


lyse de variance dans [123]. 


CHAPITRE{10 


MODÈLES STATISTIQUES, II 


$ 1. Modèles décrits par des équations 
aux différences finies 


1.1. Modèles d’autorégression. On rencontre fréquemment, dans 
les applications, des suites de variables aléatoires définies par une 
relation récurrente de la forme 


Yn+p — Pa (Ph; EU Yn+p-1) + Ÿn (ns RD. Yn+p-1) Vas (1) 


où {p,} et {w,} sont des suites de fonctions, et {V,} une suite de va- 
riables aléatoires indépendantes d’espérances mathématiques nul- 
les *). La relation (1) définit le modèle de formation de la suite {Y,} 
à partir de la suite des variables aléatoires indépendantes {V,}. 
De tels modèles sont appelés modèles d'autorégression du fait que le 
premier terme dans le second membre de (1) représente l’espérance 
mathématique conditionnelle de la variable Ÿ,,, par rapport à 
Vus ec ., Y'n+p-1 C'est-à-dire la régression de chaque terme Ÿ,+» 
de la suite {Ÿ,} sur les termes qui la précèdent immédiatement dans 
cette suite Ÿ,, ..., Yh+p_,. Le nombre p est appelé l’ordre du 
modèle d'autorégression. 

La suite {Ÿ,} peut être finie (r7 = 1, 2, ..., N) ou unilatérale- 
ment infinie (nr = 1, 2, ...) ou bilatéralement infinie (7 = 0, 
+1, +2, ...). Dans les deux premiers cas, l'équation (1) définit les 
termes de la suite {Ÿ,} à partir uniquement de Ÿ ,41, et Ÿ1, . .., 
peuvent être des variables aléatoires arbitraires (évidemment indé- 
pendantes de la variable W,). 

L'équation (1) représente une équation aux différences finies 
d’ Re p, définissant la suite Va}, étant donné que Y,41,, ... 

ses être exprimées en fonction de Ÿ, et des diffé- 
rences A e Vaio OP = APT = 47. 

1.2. Modèles linéaires. Dans le cas où les fonctions Pn Sont li- 

néaires et où #, ne dépend pas de Ÿ,, ..., Ya+p-1, l'équation (1) 


*) L'hypothèse suivant laquelle MV, = 0 ne limite pas la généralité, 
étant donne que si MV, = 0, alors on peut toujours inclure la variable 
D (ns: Yntp=1) MV, dans la fonction P (ns --. Yn+ph1). Il restera 


alors, dans lo second terme, la variable aléatoire centrée Va = V, — MV,. 
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définit le modèle linéaire d’autorégression *): 


p-i 
Théo eS 2: GrnY n+r + Vu 
r= 


OÙ 16S Gonr Œinr + + +» Œp-1n SONt certains coefficients (des matrices 
dans le cas des variables vectorielles Ÿ,). 

Outre les modèles d’autorégression, on rencontre fréquemment 
des modèles de la forme 


ri ES is Ch nes 


$s—= 


De tels modèles sont appelés modèles de moyenne glissante. 

Il est clair que les modèles linéaires d'autorégression et les modè- 
les de moyenne glissante représentent des cas particuliers d’un mo- 
dèle combiné défini par l'équation 


p—1 p 
Ya+p ce. 2 GrnT n+r ne 2l DsnVn+s- (2) 


Attirons l'attention sur le fait que, dans tous les modèles considé- 
rés, la quantité Ÿ,+, ne dépend pas des variables suivantes Ÿ, 
et V,. Cela correspond aux situations réelles pour lesquelles tout sys- 
tème ne peut utiliser que les signaux qu'il a reçus dans le passé, mais 
ne peut réagir aux signaux qui influeront sur lui dans le futur (con- 
dition de réalisabilité physique du système). 

1.3. Réduction du modèle linéaire au modèle d’autorégression 
du premier ordre. Démontrons que tout modèle combiné de tout 
ordre (en particulier, le modèle linéaire d’autorégression) peut être 
ramené à un modèle linéaire d’autorégression du premier ordre. 

> Introduisons de nouvelles variables aléatoires Zin, . . ., Zn 
en les définissant à l’aide des relations 


Yh + Zin + inVns 
ZLrn+i Eu ZLr+in + Gr+inVn ( — 1, sy P — 1), 


OÙ 16S Qins + : +: Qpn SOnt des coefficients (dans le cas général, des 
matrices) pour l'instant indéterminés. Nous aurons alors 


(3) 


a+ — Zin+ti+ Œin+iVn+: us Lan an GanVn + Qun+1Vn+1 
et, en général, 
Yatr = Lrtin À GrtunVa + entiVn+i +... 
c++ GruntrVn+r (= 1, ..., p —1). (4) 


*) Dans ce cas, on peut inclure les facteurs constants de +, dans V.. 
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En remplaçant dans cette formule, pour r = p — 1, le n par n + 1, 
nous obtenons 


Y'ntp = Zp, n+1 + Gp. ntiVnti + eee + Qi, n+pVn+p = 
p 
+ Zp, n+i +2 Qp-s+1, nteVn+s- (2) 


En portant les expressions (4) et (5) dans (2), nous aurons 
P 
Zp, n+i + 2EQp-s+s. n+sVnt+s — 


p-i ? 
= > Grn (Zr+1, ñn + Jr+1, nl - <.. Qi, nirVaér) +2 DenV n+s 
ou encore 


D 

V - 

Z hp. n+i+ = Qp-s+1, ntsVnts = 
s= 


p-i P—1 D— 1 P 

D © = 

ss — Arn£r+1, ñn à Vh+s pa Arndr-st1, nts À 2 bsnVn+s° (6) 
s= res s= 


) di 


Définissons maintenant les qi, - - -, mn de telle sorte que l’équa- 
tion (6) ne contienne pas Vh+, . . ., Vn+,. En comparant les coef- 
ficients de V,+, dans les premiers et seconds membres de l'équation 
(6), nous obtenons 


Gin+p = Üpn- 
Nous en tirons, en remplaçant nr par nr — p, 


Gin = bpn-p- 
Nous obtenons alors, en comparant les coefficients de V4, (s = 
— 4, ..., p — 1) dans les premiers et seconds membres de l’équa- 
tion (6), 
P-1 
Tp-s+1, n+s — > Arnr-s+1, nts + Dyn- 
TES 


Nous en tirons, en remplaçant n par r—s, 
p—-1 
Ip-s+1,n — bs, ns + > Gr, n-sQr-s+1,n° 
r=s 


Introduisons maintenant, au lieu des indices s et r, de nouveaux 
indices # et Z en posant p — s4+ 1 = k,r — s4+4 1 = 1. Nous aurons 
alors s= p— k4+ 1, r = p — k4+ 1 et la formule obtenue de- 
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viendra , 

h—1 

Qhn = Op-h+i, n-p+h-1 + 2 Gp-h+l, n-p+k-1din 
(k=2, ..., p). 

En déterminant ainsi les Qins + + +» Qpn, NOUS trouvons le coefficient 
Gp+in de VA dans (6): 

p—1 

Qp+i.,n — bon 25 2 Œrnr+1,n- 
ræ0 


Cela fait que l'équation (6) devient 


Zp, n+i — à ŒrnZr+t, n + Qp+1, Va: (7) 


Les égalités (3) et (7) représentent un système d'équations aux dif- 
férences finies du premier ordre, définissant les variables Z.,,, 
++. Zpn- POosons maintenant 


FO O0 ss © 7 


Zin 
s 0 O0 7 0 
22:= 2 , Cn = 0 o 0 _ 7 , 
Z 
Fe Aon in on Gp-1, n— 
fon 


p+i,n 


où O est une matrice carrée de mêmes dimensions que &on, in» + - 

+ An-1n dont tous les éléments sont des 0, et 7 est une matrice 
unité de même dimension. Dans ce cas, les équations (3) et (7) s’é- 
criront sous la forme d'une seule équation 


Zn41 = CnZn + Wa. 


Nous avons ainsi obtenu un modèle de régression linéaire du pre- 
mier ordre. 

1.4. Modèles non linéaires. On rencontre également en pratique, 
outre les modèles linéaires et les modèles non linéaires d'autoré- 
gression, des modèles plus généraux décrits par des équations aux 
différences non linéaires de la forme 


Yn+1 — On (Fr: Va), (8) 


où {w,} est une suite de fonctions connues et {V,} une suite de varia- 
bles aléatoires indépendantes. 
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On peut ramener également au modèle (8) le modèle plus général 
décrit par l'équation 


Yn+p = On (Vas Yn+p-1 Va). 


Pour cela, il suffit d'introduire une suite de vecteurs {Z,}, Z, — 
= [YT ... Yiap-1l7, et d'ajouter les équations identiques Ÿ,+, — 
= Vygis cees Yn+p-1 = Yn+p-1, que l’on peut écrire sous la forme 
Zn+11 = Znes + + + Zn+ip-1 = Znp. On peut écrire ces équations 
avec l'équation donnée sous la forme de l’équation (8) pour la suite 
de vecteurs composés {2,}. 

On ramène en particulier l'équation d’autorégression (1) à l’équa- 
tion (8) en posant &, (y, v) = Œn (y) + Ÿn (U) v. 

L'élaboration des modèles d'autorégression, ainsi que de cer- 
tains modèles du type (8) à partir de données expérimentales, est 
effectuée à l’aide des méthodes exposées aux $$ 9.3 et 9.4 (cf. éga- 
lement [34)). 


$ 2. Estimation des variables définies par 
des équations aux différences finies 


2.1. Modèles non linéaires dans le cas général. Pour la pratique, 
il est d’une grande importance de savoir estimer une suite de vec- 
teurs aléatoires {Y,} définis par une équation aux différences finies 
de la forme (8) à partir des résultats des mesures de certaines fonctions 
du vecteur ŸY, effectuées à chaque pas. 

Comme les mesures s’accompagnent toujours de certaines erreurs, 
dans le cas général, la suite de vecteurs aléatoires {X,} obtenue à 
partir des mesures effectuées sera définie par la formule 


Xn — On (Vnr Vn) (9) 


où {w,} est une suite de fonctions connues *). 

On se trouve ainsi devant le problème de l’estimation des vec- 
teurs aléatoires Y, définis par l'équation aux différences finies (8), 
à partir des résultats d'observations des vecteurs aléatoires X, dé- 
finis par la formule (9). 


*) Dans les problèmes pratiques. les erreurs de mesure ne dépendent pas 
habituellement des variables aléatoires V, dans l'équation (8) définissant la 
suite de vecteurs {Y,}. Cela fait que le second membre de l'équation (9) repré- 
sente une fonction w;, (Y,. V,).où {U,}cst une suite de variables aléatoires indé- 
pendantes, indépendante de {V,}. On peut toutefois considérer ©, (Y,. V,) et 
On (Yn: l'A) comme des fonctions de Y, et du vecteur composé W,, = [UXVTIT. 
C'est pourquoi le cas des erreurs de mesure indépendantes et des variables aléa- 
toires indépendantes dans l'équation définissant Îles vecteurs Y, peut être 
considéré comme un cas particulier pour lequel les coordonnées de chaque vec- 
teur aléatoire V, se scindent en deux groupes indépendants, tels que la fonc- 
tion ©, dans (8) dépend de l’un de ces groupes ct la fonction w, dans (9) dépend 
de l’autre groupe. 
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Nous rechercherons l'estimation optimale Y,:, de chaque va- 
riable Ÿ ,+., dans la classe des fonctions des variables X,, ..., X,, 
définies par les équations aux différences finies 


a OnGn qe Xn)+Yn (10) 


pour une suite donnée de fonctions {&,} et pour toutes les valeurs 
possibles de 6, et y,. Nous supposerons alors que les distributions 
de toutes les variables aléatoires V, sont connues. On peut prendre 
en qualité de fonctions &, dans (10) des fonctions vectorielles de 
dimensions quelconques. Dans ce cas, les 6, seront des matrices rec- 


tangulaires et les y, des vecteurs de même dimension que YŸ, et Y:. 
Le problème posé se ramène à la définition des valeurs optimales 
de Ô, et y, pour chaque n, pour lesquelles l'erreur quadratique 


moyenne M | Yi — Yh+, | est minimale. 

En vertu de ce qui a été dit au paragraphe 9.2, le problème de 
la détermination des valeurs optimales de 6, et y, dans (10) est équi- 
valent au problème de la recherche de la régression linéaire en moyen- 
ne quadratique du vecteur aléatoire Ÿ,:, sur le vecteur aléatoire 
X°, = En (Ph: Xhn). Par conséquent, les valeurs optimales de 6, 
et Y, sont définies par l’équation (9.14) et la formule (9.15) qui, dans 
le cas présent, sont de la forme 


OnKn = Lns Yn = Mn — Onin: (11) 
où X, désigne la matrice de variances-covariances du vecteur aléa- 
toire X, = &, (Ÿ,, X,) *) 

Kn=M nn Xn)— Mn (Pr X a) En (Pr Xn) 
L, désigne la matrice de covariances croisées des vecteurs Y,+: 
no = 00 À), 
Li = M (Ynti — MYn+3) En (Pr An) 
et m, et L, sont les espérances mathématiques des vecteurs Ÿ,+: 
et Xh = bn (Ÿ,. X,) respectivement, 
Mn = MY ln = Mn (Pns Xn): 


La relation (9.10) et la relation M Y — Ÿ) Ÿ+ — 0 qui en découle 
donneront dans ce cas 


M Pr Y n+1) Cn (Ye: X,)° = 0, M (Ÿ y41— Y n+1) YF: = (0. (12) 


*) Pour tous les vecteurs aléatoires Z et U, on a K,, — MZTUT = 
= MZ (UT — m?) = MZUT. 
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Pour déterminer Æ,,, L,, m, et L ,, il suffit de connaître la dis- 


tribution conjointe des variables Y, et Ÿ, pour chaque nr. En effet, 
en portant dans les formules de K,, L,, m, et !, les expressions des 
variables Ÿ,+: et À, tirées des équations (8) et (9), nous obtenons K,,, 
L,, m, et , comme les espérances mathématiques de certaines fonc- 


tions des variables aléatoires Y,, Ÿ, et V,. Or, Y, et Ÿ. sont des 
fonctions déterminées des variables V,, ..., V,_. en vertu des 


équations (8) à (10) et, par conséquent, ne dépendent pas de P,. 
C’est pourquoi, pour calculer X,,, L,, m, et L,, il suffit de connaître 


la distribution conjointe des variables Y, et Ÿ, et la distribution de 
la variable V, qui, par hypothèse, est connue. 
Pour déterminer la distribution conjointe des variables Ÿ, et 


Ÿ,, il suffit de trouver leur fonction caractéristique 
gen (pu) = M exp {ATYh + ipTŸ a}. 


Pour cela, portons ici les expressions de Ÿ, et Y, tirées des équa- 
tions (8) et (10) en remplaçant nr par n — 1 et, après cela, portons 
dans l'expression obtenue la variable X,_, tirée de l'équation (9) 
en remplaçant dans cette équation nr par nr — 1. Nous obtenons 
ainsi 


En (4, u) — M exp {To 1 as Vh 1) + 
+ iuT (ôn bn (Pnrs Oh (Vin Vn)) + Ynal}. (43) 


Le second membre de cette formule représente l'espérance mathéma- 


mn 


tique d’une fonction connue des variables Y,_,, Y,_, et V,_; les 


variables Y,_, et Ÿ,_, sont indépendantes de V,_, en vertu des 
équations (8) à (10). C’est pourquoi, pour calculer la fonction caracté- 


ristique g, (À, u) des variables Ÿ, et Ÿ,., il suffit de connaître la 


fonction caractéristique £,_, (à, u) des variables Y,_, et Y,_, et la 
distribution de la variable V, _, qui, par hypothèse, est connue. 
Ainsi, les formules (11) et (13) définissent un processus recur- 
rent permettant de trouver à chaque pas g,, 6, et y, à partir des 
valeurs connues de g,_,, ô, 1 et Vh-1 
Pour initialiser le processus récurrent, il faut définir la distri- 


bution conjointe des variables Ÿ, et Y. (distribution initiale). 
Si la distribution de la variable Y, (indépendante de V,) est 
connue et déterminée par la fonction caractéristique 4, (À), on peut 


adopter comme estimation Ÿ, l'espérance mathématique m, de la 


La 


variable Ÿ,, ŸY, = m, = MY,, et définir la fonction caractéristi- 
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que conjointe de ÿ, et Ÿ, par la formule 
8 (À, p) = À (Q) etre . 


On peut également déterminer l'estimation Ÿ, comme une variable 
aléatoire dont la distribution est arbitraire, et adopter 


81 (À, un) = A (À) L (h), 


où L, (u) est la fonction caractéristique de la variable Y.. 

Si la distribution de la variable Ÿ, n’est pas connue, alors il 
faut la définir arbitrairement. Après cela, la fonction caractéristi- 
que initiale g, (À, u) sera définie de la même façon que dans le cas 
précédent. 

Comme les variables X, ne figurent pas dans les équations (11) 
et (13) définissant 6,, y, et g,. on peut alors calculer toutes les suites 
des variables {g,}, {6,} et {y,} par la méthode que nous avons expo- 
sée précédemment. Le processus d'estimation de la suite des varia- 


« 


bles {Ÿ,} se ramènera alors à l'application de la formule récurren- 
te (10). 

La méthode exposée d'estimation des variables aléatoires Ÿ, dé- 
finies par l’équation récurrente (8) donne, en vertu des propriétés 
de l'estimation linéaire de la régression avec décalage, une estima- 
tion sans biais Ÿ, de chacune des variables Y, quand n > 1 (l'esti- 
mation Ÿ, est choisie arbitrairement, de sorte qu'elle peut être bi- 
aisée). 

On peut caractériser la précision de l'estimation Ÿ, par le se- 
cond moment de l'erreur 


n 


ou par l'erreur quadratique moyenne 


e = M(ŸTI—YT) (Yi —Yr) =tr Ra, 


qui sont déterminés par la fonction caractéristique g, (À, u). On 
peut également trouver les domaines de confiance de Y,, étant donné 
que £g, (À, Lu) définit entièrement la distribution conjointe des va- 
riables Y, et Y.. 

La méthode exposée donne des estimations conditionnellement 
optimales (optimales dans une classe donnée &e fonctions) des va- 
riables Ÿ, pour toutes les fonctions &,. Toutefois, la qualité des 
estimations obtenues dépend du choix des fonctions &,. Il est natu- 
rel d'espérer que l’on puisse obtenir des estimations suffisamment 
bonnes si l’on choisit les fonctions &, de telle sorte que l'équation 
(10), définissant les estimations, soit, de par sa forme, proche de 
25—0244 
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l'équation (8) définissant les variables aléatoires à estimer. On ne 
peut encore, à l'heure actuelle, donner d'autres recommandations 
relatives au choix des fonctions 6,. Le problème du choix rationnel 
des &, exige des recherches ultérieures (81, 821. 


Exemple 1. La suite des variables aléatoires scalaires {Y,} ct la suite 
des variables aléatoires observées {X,} sont définies par les équations 


Yn+1 = n + Va}? Ân = Yn + Un, 


où {V,} et {U,} sont des suites indépendantes des variables aléatoires indépen- 
dantes de moments du premier et du troisième ordres nuls. Trouver les estima- 
tions récurrentes optimales des variables Y, vérifiant l'équation aux différences 
finies d'ordre 1 | 


Vans =ôn lYE Ÿn(Xn—Ÿn) (Xn—Ÿn}l7+yne 


Ici, le choix en qualité de Ô,f, d’une forme quadratique des variables Ÿ, et 


Xn — Y, est naturel car, dans ce cas, l'équation pour les estimations est sem- 
blable à l'équation définissant les variables Y,, de sorte que l’on peut espérer 
obtenir des estimations suffisamment précises des variäbles LR: 

Les coefficients optimaux 6, et y, sont alors définis par les formules (11). 
Nous obtenons alors les formules suivantes pour les éléments des matrices L, — 
= [in 1% Jet K,— {k{] et pour les espérances mathématiques m, et L, : 


UM = MYSŸE—MYLMYE, 

LD = MYEŸ n— MYRMY nŸn— 1", 

1 = MYS— (MY BR) — I — 21m, 
Ki = MY —(MŸ!}, 
KO = MY nŸ&—MYnYnMŸR— EP, 
RGB œ= EMI — RAP) — 2KD, 

RU = MYRŸR MY nŸ n° + HnMŸ BE — KP — 2H), 

kg = LE HI — RE — 3h ET" — k45— 2h57 + 2HnMYnŸn; 
HA == DEP DIE UOTE — BRUT) — 2RIDI — AKÉP — 

—4k 9 + Hn—Hf+4HnMYi, 

mn=MYR+Gn, 


In=[MPEMYnŸn—MŸR MYEHMŸR—2MY nŸ + Hnl, 


où H, et G, sont les variances des variables U, et V, respectivement, et H, 
le quatrième moment de la variable U,. Dans le cas d'une distribution normale 
des variables U, nous avons H; = 3H3. Pour calculer les second et quatrième 


moments des variables Y, et Y., il suffit, dans les formules obtenues, de con- 


naître la distribution conjointe des variables Y, et Ÿ,. On peut alors calculer 
les moments ou bien en dérivant la fonction caractéristique g, (4, un) des va- 


riables Y, et Ÿ,, ou bien par intégration en considérant que l’on connaît la 
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dénsité de probabilité 


œ [. .) 
D 1 : | —i | 
ntm | [eve (1) dx an 
00 —0 
des variables Y, et Ÿ, : 
9? ho 
MY = — Les] = | | ÿ?fn.(y,"n) dy dn, 
no 92 e © : } 
| — 00 = 00 


: 32 : œo © 
MŸr= —| At |, = | | Nfni(y, n) dy dn, 


de co © 
MY = << | = | | Ytfn (y, 1) dy dn, 
00 — © 
œ œ 
MYEŸn = [SE | | yonfn' (y, 1) dy dn 
LE OS Ou Jo ne ' 
00 —00 
O0 oo 
MYiŸ nl M?fn (yo n)dy d 
AYÉ = "en ous Jo — yn°fn (Ye N) dy Ne 
— 00 — 00 
“ d\g t C DS 
MYnYn = ee | = | | ÉMELACE n) dy dn, 


a © C0 
MPs= [<= ( À nt mayan 
: = -® 


où l'indice inférieur 0 indique les valeurs des variables entre crochets pour À. = 


n L'équation (13) pour la fonction caractéristique g, (À, u) est, dans ce cas, 
de la forme 


En (À, u) = | | | il exp {iA (y +v)° + 
+ ip On ln nu —n<+u) ( — n + IT + y) X 
X fn-1 (Yr 1) Pn=1 () In-1 (u) du du dy dn, 


OÙ Pn-1 (v) et qn-1 (u) sont les densités de probabilité des variables V,, _, et U,,.1 
respectivement. . | 

Les formules obtenues définissent un processus récurrent pour le calcul 
itératif de £g,, fnr On €t Yn- 


25% 
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On résout de façon analogue le problème d'’extrapolation (de 
prévision) de la suite {Y,}, c’est-à-dire de l'estimation du vecteur 
Y, +» après avoir obtenu des observations de la variable X, (p > 1). 
Pour l'extrapolation à p — 1 pas, il convient de déterminer les 


estimations Ÿ, des vecteurs Ÿ, à l’aide de l’équation 


" 


1... — Ôn Gn Vu 0 Tatpes X à) œ Vn- 


Tous les raisonnements précédents resteront alors pratiquement in- 
changés. Ce n’est que pour la recherche de X,, L,, m, et L, dans (11) 
qu'il est nécessaire de déterminer la fonction caractéristique con- 


jointe gn (À, , . .., un) des vecteurs aléatoires YŸ,, Ÿ,., se 


..., Yn+ph. Cette fonction caractéristique est déterminée exacte- 
ment de la même façon que g, (À, u) dans le cas considéré [81, 82]. 

Remarquons que la méthode exposée permet également d'estimer 
non pas toutes les coordonnées du vecteur Ÿ,, mais simplement une 
partie d’entre elles. Il suffit pour cela de prendre les fonctions 
On (Y: æ) (ou En (y, - - ., Yn, tr) dans le cas de l’extrapolation) ne 
dépendant que de la partie correspondante des coordonnées du vec- 
teur y (y, - -., y) dans le cas de l'extrapolation. 

2.2. Modèles non linéaires d’autorégression. Considérons le cas 
particulier des équations non linéaires d’autorégression, pour lequel 
les équations (8) et (9) sont linéaires par rapport aux variables V,. 
Nous avons, dans ce cas, 


On (Y, 0) = Pn (Y) + Pa (Y) D, où (y, v) = n (y) + Ÿn (y) v, (14) 


OÙ Pns Vns Pr ŸA sont des fonctions connues. Il est alors naturel de 
choisir &, dans (10) de telle sorte que l'équation (10) soit linéaire 


> 


par rapport à X,, c'est-à-dire d'adopter 
Gn (y; x) Tr ia (y)T 2, (y)IT (15) 


et de poser respectivement ô, = [a, f,l. 
Les équations (8) et (9) seront alors de la forme 


Ynh+1 — Pn (Yh) + Ya (Yn) Vas (16) 
,e ee Pn (Yn) no Ÿn (Yh) Vhs (17) 

et l’on peut écrire l'équation (10) sous la forme 
Ÿ. +1 — On En (Ÿ3) Es Bann (Ÿh) Le A Ÿn- (18) 


Les matrices K,, L, et les vecteurs m, et Z, sont alors définis par les 
formules 


KE) nn) Le 
KA — ke “| . La SE [xf x{n)] ? la 7 jm |? 
21 22 2 
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où 
K60 = M [Qn (Yn)— Mn (Y n)] En (Ÿn)"s 
M) = M [Qu (Ya) — Mn (Yn)] Pa (Ta) Mn (Pa)! + 
Ma (Ya) Gnba (En) Mn (Pr) 
HD = M [En (Ÿ à) — MEn (Ÿ n)] En (Pan) 
KG = NT EME (3) ME (Pn)] Où (Pr) nn (Pan): 
0 = M [nn (Von) Pr (Von) — Min (on) Pr (Vn)] Pr (Pn)7 An D n)T + 
2 Mn (P) Vi Pr) Ga (Pn) 7 Mn (ns 
Mn = Mpr(Yh); 
= ME (on) LP = Mn (Ÿn) Pa (Yn): 


En portant les expressions des matrices K,, L, et 6, = [a, B,} 
dans la première équation (11), nous obtenons les équations permet- 
tant de définir les valeurs optimales de &, et B, dans (18): 
HN) +- Ba x{r) = = 1 2), 
H(m) + Ba x) — — xt). 


En portant ne du vecteur L, et 6, — [a«, B,] dans la 
seconde formule (11), nous obtenons une formule pour les valeurs 
optimales de , : 


(19) 


Yn = Mn —Gnly —Bal,. (20) 


En posant dans (12) £, (Ÿ,, X )T=(E, (Y,)! XTn, (h)'] nous 
obtenons les relations 


M (Ÿ n43—Ynt1) En (Pr) =0, 
M (Pari Y nt) XEnn (Pn)7 = 0. 


La seconde relation (12) n’est pas modifiée dans ce cas. 
En portant les expressions (14) et (15) des fonctions w,, ©n, Ga 
et ô,-1 — [a,_-1Pr_-1l dans l'équation (13), nous obtenons 


En (À, h) = M exp {AT [qu (Yi) + Ya (nr) Vn-1l + 
+ ipT [an-1Ën-1 te 1) À Pn-1Mn 1 0) Pr (V1) + 
+ Mn -1 (Tr 1) Vas (Ya 1) Fra na ŸVn 11}. 


Or, comme nous l'avons déjà remarqué, les variables ŸY,_, et Yh… 
sont indépendantes de V,,_.. Par conséquent, l'espérance mathéma- 


(21) 
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tique conditionnelle 
M exp {i (Ab 1 (Pa) + | | 
+ nn (Pa) Vous Pa) Vas 1 Yan ra) 


coïncide avec l'espérance mathématique non conditionnelle, repré- 
sentant la valeur de la fonction caractéristique h,_, (À) de la va- 
riable aléatoire V,_, pour À = Yi (Yn1)TA + Pi (Yn-1) Mn X 
X (Yh-)7u. En tenant compte de cela, on peut écrire l'équation de 
la fonction caractéristique g, (À, u) sous la forme 


En (À, u) = Mh- (Pr Pn-1)7A + 


+ Pan nn) Mn 1 Ÿ, -1)TBT 1) X 
X exp {iAT@n-1 (Vn-1) + EUT [an1bn1 X 


X (Ÿ, 4) + Bn-1n-1 (Yh-1) Pn-1 (n1) + Yn-1]}- (22) 


Les équations (19), (20) et (22) définissent un processus récur- 
rent pour le calcul itératif de g,, &,, B,, y, à partir des valeurs con- 
nues de gh-1, Œn-1r Pn-1r Yn-1 Pour initialiser le processus, il faut 
se donner la fonction caractéristique g, (À, u) des variables YŸ, et 


Y,. Cela est effectué exactement de la même façon que dans le cas 
général du point 2.1. 

Dans le cas de l’extrapolation de la suite {Y,} à p— 1 pas, l'équa- 
tion (18) est remplacée par l'équation 


re = Un En Ÿ,,  . Ya.) + h k 
ci Ban (n: #28 03 Yh+p-1) À» + Vn- 


Pour déterminer les coefficients xf%’ dans les équations (19) et les 
variables m,, l'® et 1% dans (20), il faut connaître la fonction 
caractéristique conjointe g, (À, I, . -., Up) des variables YŸ,, 


Yns ss Yn+p. La formule définissant cette fonction carac- 
téristique est établie exactement de la même façon que (22) [81, 821]. 

à En ce qui concerne le choix des fonctions Ë, et n., on peut répéter 
mot à mot ce qui a été dit dans le point 2.1 au sujet du choix de la 
fonction &,. Toutefois, dans certains cas, il est rationnel d’exiger que 
l'équation (18) définissant les estimations soit linéaire (estimation 
linéaire). Dans de tels cas, il convient d'adopter E, (y) = y 
(En (Ya - + +» Un) = [YF - .. YET dans le cas de l’extrapolation, 
Nn (y) = I. | 

2.3. Modèles linéaires d’autorégression. Considérons, comme un 

cas particulier, le problème d'estimation linéaire des variables aléa- 
toires définies par nn modèle linéaire d'autorégression 


Ya+1 Sa nY n ar dno ni Pr Va (23) 
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à partir des résultats des observations de la suite des variables aléa- 
toires 


Xn = bn a bo 2 Da Va: (24) 


Dans ce cas, les estimations Ÿ, des vecteurs Ÿ, sont définies par 
l'équation 


Yan — anŸn + Pr Ân + Yne 


Pour trouver les valeurs optimales &,, B, et y,, il faut poser, 
dans toutes les formules du point 2.2, @, (y) = a,y + ao, ®, (y) = 
= b,y + b,, En (y) = y, Mn (y) = Z et considérer 1, et 1, comme 
constantes. Nous obtenons alors 


#9 =a,M(Y,—MY,)ŸI= anK -; 
460 = a, MY, MY) (YT6Ë + blo) + YF Gnbr = 

= an Ky,bn + PnGnŸns 
HO =M(Ÿ,—MYŸ,)Ÿi— K.., 
a = NE MY, MY) (VIE + bo) = Ke. bn 

n°n 
HD = BM (Ya — MY) (Yabn + bno) + VnGn'r = 

= d,Ky,bn + YrGn br 
Mn=anMYn+ann L=MYn = b,MY + bn 


OÙ Ky,s Ky,s Kyn tn ©t Kÿhv, Sont les matrices de variances-cova- 


riances et les matrices de covariances croisées des vecteurs Ÿ, et Y,. 
Les relations (21) sont alors, dans ce cas, de la forme 


M (Fun) ŸT=0, M(Fnm—Ynm) XT=0. (25) 


La seconde égalité (12) nous conduit, en remplaçant n + 1 par n, 
à l'expression 


M(Ÿ,—Y3) Pr M (Pa Y) Pa = K. ki >: =) 


Vnln 
Par conséquent, À - —ÆK. et, en vertu de la symétrie de la 
Un!n Un 
matrice K., on a K. —=K', —K.. En vertu de ces égali- 
Vn UnVn UnVn Un 


tés et des expressions obtenues pour les coefficients %,,, les équa- 
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tions (19) pour les valeurs optimales de «, et B, deviennent 
anK- +B,b,K. —=a,K., 
Un Un Un 
anK > bn + Bn (OnKy,bn + YaGnVn )= an Ky,bn + PnGnŸa - (26) 
n 


Ces équations peuvent être aisément résolues. En retranchant la 
première équation (26), multipliée à droite par la matrice DT, de la 
seconde, nous obtenons 


Bn Lôn (Kym— > ) bn + VnGnŸn 1= an (Kyn—Æe ) bn + VnGnŸn - 


Remarquons maintenant qu’en vertu des égalités K . —K. — 
Unbn Unln 


= À. , MŸ,=MY, la quantité Kyn— Ke représente le second 
n n 
moment de l'erreur À,. En effet, 


Ri=(M,-Y,)(PI-Y)=MP YF YT = 
= K . — K. — K Am +K,,=Ky,—-K.. 
UnVn Un 


Un UnUn n 


Par conséquent, l'équation pour la valeur optimale de B, est de la 
forme 


Ba (On RbT + DGA) = an Rab4 + PE n br - 


En résolvant cette équation par rapport à B,, nous trouvons 
Ba = (an Rnbn + PnGnŸn ) (On Rndn + PnGnbn ) 4 (27) 


Remarquons que, dans les problèmes pratiques, la matrice b,R,b1 
est toujours inversible, car sa non-inversibilité est équivalente à 


l'existence d’une fonction linéaire du vecteur d'erreur Ÿ, — Ÿ, de 
variance nulle. Si cela était, cela signifierait que la fonction linéaire 
correspondante du vecteur Ÿ, peut être estimée avec une précision 
absolue, ce qui est impossible. On peut dire a fortiori que la matrice 
bhR, DT +, GAYT est aussi inversible. C’est pourquoi la formule (27) 
détermine toujours une valeur optimale de f,.. 

Après avoir déterminé f,, la première équation (26) donne a, — 
= An — B,b, à condition que la matrice X%, soit inversible. Cette 
condition est également toujours vérifiée dans les problèmes prati- 
ques car, dans le cas où elle ne serait pas vérifiée, il existerait une 
fonction linéaire du vecteur Ÿ, dont l'estimation aurait une va- 
riance nulle, ce qui est impossible. 

En portant les expressions obtenues de a,, m,, 17 et l®*' dans 


(20) et tenant compte du fait que MY, — MY,, nous trouvons la 


$ 2] ESTIMATION DES VARIABLES 393 


valeur optimale de y, : : 
Va = GnMYn + ano — AnMŸn — Bn (nMYn + bno) = 
= no — Pnôno- 
Enfin, en portant les expressions trouvées de «, et y, dans l’équa- 


* 


tion définissant les estimations . nous la ramenons à la forme 
Pnti= an Ÿ n + Ang + Bn (Xn — bn Ÿ n — Dno)- (28) 
Il reste à écrire l’équation (22) pour la fonction caractéristique 
En (À, u)- Dans ce cas, elle est de la forme 
En s U) = Ans (Pn-1À + Pn1Bn-1p) M exp {A (an Y ni + An-1,0) + 
+ iuT CT EE + Bn-10n-1Y n-1 + An-1, o)} — 
= nes (Pansh + Pac iBn-1u) exp {i (AT — UT) an1,0) X 
X M exp {i (an + UTBn-10n-1) Yh-1 + iuTan-4Y n-1} 
ou encore 
T TT o7 
En (4, u) = hi (Pn=1À + Yn-1Bn-11) X 
X exp{i (A+ pT) an, 0} En-1 (an-1À + bn-1Br-ils Gn-1l)- 
On obtient aisément, à partir de cette formule, une formule récur- 


rente pour la fonction caractéristique g, (À) de l'erreur es — Ya. 
Remarquons que 


En (1) =M exp{inT(Pn—Y)}=8n (—h b); 
et posons, dans la formule de g, (À, u), À= —u. Nous obtenons 
alors, en tenant compte du fait que — ait + b_1BT-iu — — api 
et Que Z£n-1(—Qn-i, Qn-iu) = £n-1 (an-1p), l'expression 


En (u) = han (Paz 1Bn-1 — V1) u) gn-1 (nil). 


Cette formule définit entièrement la distribution de l'erreur Y, — 
— Ÿ, à chaque pas et, par conséquent, permet de trouver les do- 
maines de confiance de ÿ,. 

On déduit aisément de la formule de la fonction caractéristique 
8, (u) de l'erreur l’équation aux différences finies pour le second 
moment de l'erreur R,. Pour cela, il suffit de dériver deux fois la 
formule de g,, (1) par rapport à u et de poser, après cela, u — 0. En 
laissant au lecteur le soin d'effectuer ces calculs, nous donnerons 
ici une autre démonstration de l'équation définissant R;. 

En retranchant l'équation (23) de l’équation (28) pour les esti- 
mations et en remplaçant X, par son expression (24), nous obtenons, 
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at: 


pour l'erreur Ÿ, = Ÿ, — Ÿ,, l'équation 


Le 1 


Yh+1 — (an — B,6,) de LE (Br bn ue Ÿn) Va: (29) 
Nous en tirons alors, en prenant en considération le fait que Y, 
‘et Ve et par conséquent r. ne dépendent pas de V,, et en appli- 
‘quant la formule (3.50) pour la matrice de variances-covariances de la 
fonction linéaire du vecteur aléatoire, que 
Rau= (an —Bndn) Rn (an — bnfn) + (Ban — Pa) En (Un Br —Vn)e 


En développant dans chaque terme les secondes parenthèses et en 
utilisant la formule (27) définissant f,, on peut ramener l'équation 
obtenue à la forme 


Rn+1 . (an nn Bnôn) Rhaï + (a GE BrŸa) Grpi. (30) 


‘Cette équation définit, avec la formule (27) pour f,, un processus 
récurrent pour le calcul itératif des matrices À, et B,. On peut alors 
ne pas calculer les fonctions caractéristiques des erreurs g, (u). Elles 
ne peuvent servir que pour définir les domaines de confiance de Ÿ,. 


L'estimation VAR définie par l'équation (29) pour chaque n 
‘est optimale dans la classe des fonctions linéaires (avec décalage) 


des variables Ÿ, et X,. Démontrons qu’elle est également optimale 


dans la classe plus large des fonctions linéaires des variables v. 
X1,..., X,- Conformément aux résultats du point 9.2.5, il 
suffit pour cela de montrer que les relations (9.11) sont également 


vérifiées pour Ve * dans notre cas, elles sont de la forme 
M Pau Vues) Vi 0, MPa — Ynss) Xp = 0 
(=: ss 0): 


t 


En portant dans ces formules l'expression You — nt = 
= Ÿ,41 tirée de l'équation de l'erreur (29) et en prenant en consi- 


dération l'indépendance de V, de Ÿ: Xy, +. Xn-1 nous obte- 
nons 


M (Pants Yes) Ÿ 5 = (an —Bnôn) M (Vu —Yn) Ÿis 
M (Pau T nes) Xp = (Gr —Bndn) M (Pr —Yn) Xp 
(p=1,...,n—1). 
11 découle de ces égalités et de la seconde relation (25) que l'esti- 


mation Ÿ,+, est optimale dans la classe des fonctions linéaires des 
variables Y,, X,, ..., X,, si l'estimation Ÿ, est optimale dans 
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la classe des fonctions linéaires des variables Ÿ,, X,, ..., X,.. 


Or, comme l'estimation Y. = AY + Go + Br (Xi — bŸ. — b,)) 
est optimale dans la classe des fonctions linéaires des variables 


V. X:1, . .., alors pour tout nr l'estimation VF. est optimale dans 
la classe des fonctions linéaires des variables Y,, X,, ..., X,.. 
Plus encore, si toutes les variables V, et les variables Y, et Y, 


sont normalement distribuées, alors les variables Ÿ,4,, ŸY1, X,, . .. 
..., Xn+1 suivent, pour tout n, une distribution conjointe normale. 


Dans ce cas, l'estimation ŸY,+, coïncide avec la régression de Ÿ, +4 
sur Yi, Xy,  -., Xn+1 et, par conséquent, est optimale dans la 


classe de toutes les fonctions des variables Y,, X,, ..., X,4, (est 
absolument optimale). 

2.4. Filtres de Kalman. La méthode exposée d’estimation linéaire 
des variables aléatoires définies par un modèle d’autorégresion li- 
néaire (23) a été élaborée par 
Kalman [33]. C'est «pourquoi 
les systèmes automatiques 
réalisant le calcul des estima- 
tions définies par l'équation 
(28) sont habituellement appe- 
lés filtres de Kalman. | 

L'élaboration d'un filtre de Fig. 35 
Kalman à partir d'un modèle 
donné de formation de la suite {X,} peut être représentée par un schéma 
si l’on utilise le procédé de représentation des systèmes et de leurs 
interliaisons, habituel en théorie de la gestion, en indiquant par les 
droites munies de flèches la direction de la transmission des signaux. 
On a montré sur la fig. 35, par un rectangle noté MA, le modèle 
d'autorégression (23) avec des flèches indiquant le signal d’entrée 
V, et le signal de sortie Ÿ,,,. Il apparaît de la comparaison de (28) 
avec (23), que le modèle (23) donnera en sortie une suite d’estima- 


tions {Ÿ,} si les signaux d'entrée {Ÿ,} sont remplacés par la suite 
{Br (Xn — bŸ, — b,0)}. Pour réaliser cela, il convient d'amener le 
signal de sortie Ÿ, +1 à l'entrée de la chaîne de rétroaction contenant 
un dispositif effectuant le produit de Ÿ. par b, *). Avant l'entrée 
dans le modèle (23), la quantité b,Ÿ, doit être retranchée de la 


*) On suppose que le temps de passage du signal dans la chaîne de rétro- 
action est égal à la durée d’un seul pas, de sorte qu’à l'instant de l'apparition 


en, sortie de la quantité Y,41, la quantité précédente Ÿn arrive dans la chaîne 
de rétroaction. 


Vh Yn+1 
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quantité correspondante X, — b,, et la différence doit être multi- 
pliée par le coefficient correspondant B,. Le résultat de cette cons- 
truction est montré sur la fig. 36. On désigne par un cercle divisé. 
en cadrans le sommateur. Le cadran inférieur noirci situé avant la 
sommation modifie le signe du signal qu'il reçoit (liaison inverse: 
négative). Les rectangles en-dessous et après le sommateur représen- 
tent des dispositifs effectuant le produit par les matrices b, et B,. 
respectivement (des amplificateurs avec des coefficients d’amplifi- 
cation b, et B,, dans le cas général matriciel). Le signal d'entrée d’un 
système ainsi élaboré est constitué par la suite des variables aléatoi- 
res {X, — bho}- 

Ainsi, le filtre de Kalman est obtenu à partir du modèle initial 
d'autorégression (23) en fermant sa rétroaction négative comportant 


Fig. :36 


un amplificateur avec un coefficient d'amplification b,, en instal- 
lant, après le sommateur, un autre amplificateur avec un coefficient 
d'amplification f, et en renvoyant à l’entrée du système ainsi obte- 
nu la suite des variables aléatoires {X, — b,,} (fig. 36). Les coeffi- 
cients d'amplification b, et B, seront évidemment, dans le cas géné- 
ral, variables, c'est-à-dire seront modifiés à chaque pas du fonction- 
nement du modèle. 


Exemple 2. La suite des variables {Y,} est définie par le modèle 
d’autorégression 


Yn+e + &inYn+1 + GonYn = binVn+1 + bon Vne 


Construire le filtre de Kalman pour les estimations des variables Y, à partir 
des résultats de leurs observations comportant des erreurs, formant une suite de- 
variables aléatoires indépendantes {U,). 
Dans notre cas, X, — Y,, + U,. Pour résoudre ce problème, on doit tout 
d’abord ramener le modèle de formation de la suite {Y,} à un modèle d'autoré- 
ression du premier ordre. Nous trouvons, à partir des formules du point 1.3, 
es coefficients Gin, Jen ©t Qsn : 


Jin =DVe, n-2—=0, Gen —=0d1, n-1 +01, n-1din = bi, n-1s 
Gsn = bon + dondin HF Ginan = bon + ind, n-1. 
Nous obtenons ensuite 
Zin=Yn, Zi,ne1= Zen +bi,n-1Vn- 
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En introduisant les vecteurs ‘ 


Yn b; n-1 ü 
Zn=[ RS Pen LL 
É Yn41 jt bi, n-1Vn d bon + O1. n-1 . 


nous obtenons l'équation aux différences finies du premier ordre 


0 I 
Zn = | ]Zn+Wan. 


don in 
L'équation définissant les variables observées devient alors 
X, = [1 0] Z, + Un. 


La matrice de variances-covariances A, du vecteur W, s'exprime en fonction 
de la matrice de variances-covariences //, du vecteur V, par la formule (3.50): 


£ bis n-1 T T T 

K'n = Hn U b b : 
; Pis n lin On Ÿ n-1l 

Etant donné que W, = [1 0] [WT uTy7, U, = [0, 1] [WT  UTIT, nous 

avons alors, dans ce cas 4, = [7 0], , — [0 7]. La matrice de variances- 


covariances du vecteur [WT UTIT, jouant le rôle de la matrice G, dans la théo- 
rie générale, s’écrira donc 
K 0 
ai 2] 


0 Gn 


L'équation (28) deviendra alors 


Zi ([ AE Bu 0] 2n+BnXn 


apgn ain 
où, en vertu de (27), nous avons 


MC a, Je o]( am ]+e)" 


et R, est défini par l'équation (30), qui, dans ce cas, est de la forme 


Rna=(| ; : J-8ru 01) Rn[, LT ]+ En. 


don 1 ain 


Attirons l'attention sur le fait que, dans ce cas, le filtre de Kalman donne 
non seulement les estimations des variables aléatoires Y, qui nous intéressent 
mais encore des estimations des variables Z,, = Y,41 — bi, n-1V,. Cela a 
toujours lieu quand le modéle initial d'autorégression est d'un ordre supérieur 
à un. Toutefois, dans le cas général, ces estimations sont inutiles du fait qu’elles 
comportent les variables V,. C'est pourquoi on ne les utilise pas habituellement 
(on ne les sort pas sur les dispositifs de sortie du calculateur). Ce n'est que dans 
des cas particuliers que ces estimations complémentaires peuvent être utiles. 
Par exemple, si b,, = 0 pour tous les », alors Zen = Yn+1 et, par conséquent, 


le filtre de Kalman donne, outre l'estimation Y,, également la prévision opti- 
male avec une échéance de un pas de la variable Y,,, (remarquons que dans ce 


CAS Zen 


2.5. Suites de renouvellement. Attirons l'attention sur le fait 
que le modèle (28) utilise en fait, pour l'élaboration des estimations 
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Y, non pas la suite elle-mème des variables observées {X,}, mais la 


suite des variables aléatoires non corrélées {X, — b,Ÿ., — b,0} *). 
Cette suite est obtenue en retranchant de chaque variable X, son 


estimation linéaire sans biais optimale X, obtenue à partir des 
résultats de l’observation des variables précédentes X,, ..., X,_1. 
Ïl ne reste alors de chaque variable X, que la partie qui ne peut être. 
exprimée linéairement en fonction de À,, ..., À,-, et qui, par 
conséquent, contient une information nouvelle par rapport à celle 
dont on disposait précédemment à partir du résultat des observations 
de X,,..., Xh-1. 

La suite des variables aléatoires non corrélées que l’on obtient 
à partir de cette suite en retranchant de chaque variable son estima- 
tion linéaire optimale calculée à partir des résultats d'observation 
des variables précédentes est appelée suite de renouvellement. En 
utilisant cette notion, on peut formuler le résultat obtenu très sim- 


plement : la suite des estimations optimales {Ÿ,} est définie par le 
méme modèle de régression linéaire que la suite {Y,} en remplaçant 


la suite {V,} par la suite de renouvellement {X, — b,V, — bo}, 
dont chaque terme doit être multiplié par le coefficient correspon- 
dant f,. 

2.6. Méthodes approchées d’estimations des problèmes non linéaires. 
La méthode exposée dans les points 2.1 et 2.2 donne une solution 
exacte du problème de la recherche des estimations conditionnelle- 


ment optimales Ÿ, des vecteurs Ÿ, minimisant l'erreur quadratique 


moyenne M | Ÿ, — YŸ, |* sous la condition qu'elles vérifient une 
équation aux différences finies d’une forme donnée. Toutefois, l’obten- 
tion de la solution exacte du problème d’estimations non linéaires 
exige des calculs excessivement laborieux, liés à la détermination 
à chaque pas de la fonction caractéristique g,. C'est pourquoi il est 
d’une grande importance pratique d’élaborer des méthodes appro- 
chées de calcul des fonctions caractéristiques g, (À, u) et des densités 
de probabilité rt 


oO © 


LaaT A T° : 
În (y; y) = nn | | Po HVg, (A, Lu) dA du 
00 —0o0 
(m désigne la dimension des vecteurs Ÿ, et Y,). 

*) 11 découle de (24) que Wn = Xn — bnŸn — bno = On (Yn — Ÿn) + 
+ Ÿn VA. Nous en tirons, en prenant en considération le fait que Y, — Y, et V, 
ne sont pas corrélés avec Yi, X1, - .., X 1, que chaque variable W, n'est pas 
corrélée avec _. X1, -.., Xn-1 et, par conséquent, n'est pas corrélée avec 


Ÿ» quand p < n, étant donné que Fe est unc fonction linéaire de Ÿ1, X1, ... 
X h-1. Par conséquent, chaque variable W, n'est pas corrélée avec Wo. 
quand PER 
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On peut proposer le procédé suivant pour déterminer de façon 
approchée les fonctions caractéristiques g, et les densités de proba- 
bilité correspondantes f, : on remplace la fonction inconnue g,, (4. u) 
par une fonction g (À, u, 6,) entièrement déterminée dépendant d’un 
nombre fini de paramètres inconnus qui forment un vecteur o,, et 
on établit, à partir de l’équation (12), les formules approchées corres- 
pondantes de récurrence (les équations aux différences finies) défi- 
nissant la suite des valeurs des paramètres inconnus {0,} *). 

En remplaçant g, (À, u) par la fonction g (À, u, o,) et la densité 


de probabilité f,-1 (y, y) par la densité de probabilité correspondante 
1(y;, y, On_1), nous remplaçons la formule (12) par la formule approcheé 


OO O0 © 


g (À, bb, On) = | | | exp {il On (y, v)+ 


+ iuT [ôn_16n-1 (y, œn-4 (y, v))+vn1l} X 


X Pn-1 (v) { (y; Y: On=1) dv dy dYn-1e 
Nous pouvons maintenant, en dérivant par rapport à À et u et en 
égalant à et u à O, obtenir des formules approchées pour les moments 
du vecteur aléatoire [YT ŸTIT: 
ghi+- .+Rkmæ+lit...+lm 
m=| 


8 (i)*1 .… d(ilm)" 8 (A h; On) L 


où l'indice inféreur 0 signifie que la valeur de la variable entre cro- 
chets correspond à À = u — 0. Etant donnée que ces moments dé- 
pendent de ©,, nous écrirons les formules approchées obtenues pour 
les moments sous la forme 


af) su RU 35: im (On) 7 


= | ( pense exp {AT O4 (y, v) + 


#0) ' 
Œh:, . comble CR 


8 (ilŸ1 ... 0 (ium) 
+ iuT [0 n-16n-1 (y, On (y, v)) ma Va} |, X 


X Pn=1 (0) f (YU, y; On) du dy dy. (31) 
En prenant autant d'équations de ce genre que les vecteurs ©, et 
0-1 ont de coordonnées, nous obtenons un système d'équations aux 
différences finies pour la détermination approchée de la suite des 
vecteurs {0,}. 


*) Cette idée a été avancée par B. Démoukh, qui l’a utilisée pour élaborer 
sa méthode approchée d analyse de la précision des systèmes non linéaires 
(« Automatique ct télémécanique », 1965, n° 6, pp. 1021-1025). 
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Dans le cas particulier où ©, représente l’ensemble des moments 


du vecteur [YT ŸZ JT jusqu’à l’ordre r inclus, 6, = a‘"”, l'équation 
(31) donne une formule récurrente pour le calcul approché des mo- 
ments : 


Ak) ..,km, h,...,.lm— 
C s Fe git- ..+im _— 
_ ——ñ9 5 — exp {il os (y, 
il J :: 2 (h)*1 ... 9 (im) exp{ik &,-1(y, v) + 


= iuT [ôn-10n-1 (y, On (y, v)) + |: ù 


* Pres (0) f (y, ÿ, a"-0) du dy dy 
(k1, se En: li, ….. 20, È sr, 
kit... +kntli+... + ln Sr). 


Exemple 3. En remplaçant, dans l'équation pour g, (À, u) de l'exem- 
ple 1,la densité de probabilité f, (y, n) par la densité de probabilité normale 
définie par les premiers ct les seconds moments ai57!’, ar”1l?, an 1, œil, 
af”l, nous obtenons, par la méthode exposée, cinq formules récurrentes don- 
nant une approximation des moments af?, ait’, a”, a®’, ais à partir des 
valeurs connues de a{ñ-1’, aÿr-1?, al, ait-l, œil. Ces formules peuvent 
être établies de façon beaucoup plus simple, en prenant toutes les dérivées 
premières et secondes par rapport a À et de l’expression pour g, (À, u), et en 
remplaçant ensuite dans les expressions obtenues À — pu — 0; il faut ensuite 
exprimer, dans les expressions obtenues, tous les moments d'ordre supérieur à 
deux en fonction des premiers et des seconds moments à l’aide des formules 
correspondantes pour la distribution normale (point 4.5.3). Tous les moments 
dans les formules pour les valeurs optimales de 6, et y, s'exprimeront alors en 
fonction de a{%?, af?”, an, af, ai”, de sorte qu'il ne sera plus nécessaire 
d'exprimer ces moments à l'aide des formules de deremile 1. Le moment du 


second ordre de l'erreur Ÿ, — Y, sera alors déterminé par la formule 
n= aa. 

2.7. Estimations des paramètres inconnus dans les équations aux 
différences finies. La méthode exposée dans les points 2.1 et 2.2 
permet d'estimer les variables aléatoires définies par une équation 
aux différences finies également dans le cas où les fonctions w, et 
w, dans (8) et (9) dépendent d’un nombre fini de paramètres inconnus 
(d'un vecteur de paramètres de dimension finie). [l s'avère alors pos- 
sible d’estimer simultanément les paramètres inconnus: 

Supposons que les fonctions w, et w, dans (8) et (9) (les fonctions 
Pnr Vnr Pa et Ÿ, dans (16) et (17) dans le cas particulier du point 2.2) 
dépendent du paramètre vectoriel 0 inconnu de dimension finie. Dans 
ce cas, l’équation (8) et la formule (9) peuvent être écrites sous la 
forme 


Yn+1 — © (n: 6, Th): Xh On LE 6, Vh). 
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Posons le problème de la recherche des estimations optimales ÿ, et 


6, du vecteur Y, et du paramètre à chaque pas, définies par des 
équations aux différences finies de la forme (10) à partir des résultats 
de l'observation de la suite des vecteurs {X,}, c'est-à-dire le problè- 
me de l’estimation simultanée du vecteur Ÿ, et du paramètre incon- 
nu 6. 

Les problèmes de ce genre sont résolus habituellement en les 
ramenant aux problèmes du point 2.1 où les fonctions w, et w,, sont 
entièrement connues. Pour cela, on remplace le paramètre inconnu 6 
par une suite de vecteurs aléatoires {6,}, 6, = 8 (la distribution de 
chacun de ces vecteurs est concentrée au point 6). Il est évident que 
la suite de vecteurs {6,} introduite de cette manière vérifie l’équa- 
tion aux différences finies 6,:, = ©,. En conséquence, l'équation 
définissant la formation de la suite des vecteurs {Ÿ,} sera remplacée 
par le système des équations aux différences finies 


a+: — Oh is 6,, Fa); O,+1 7 6, 


et la formule déterminant la suite des variables observées {X,} sera 
remplacée par la formule 


Xn ni On (Ta 6; Va). 


On peut écrire les équations définissant le processus de formation 
des suites des vecteurs {Ÿ,} et {6,} sous la forme d’une seule équa- 
tion du type (8) pour la suite des vecteurs composés {Z,}, Z, — 
— {YT OT JT, comportant des fonctions connues w,; la formule 
pour À, représente alors la formule (9) si l’on remplace le vecteur Y, 
par le vecteur composé Z, = [YT OT [T comportant une fonction 
entièrement connue w,. 

Ainsi, le problème des estimations simultanées des variables 
définies par une équation aux différences finies et des paramètres 
inconnus de cette équation se ramène au problème résolu dans le 
point 2.1, en introduisant des vecteurs composés, dont chacun inclut 
toutes les coordonnées du vecteur correspondant Ÿ, défini par une 
équation aux différences finies, et tous les paramètres inconnus de 
cette équation. 

L'équation aux différences finies pour les estimations des vec- 
teurs composés sera naturellement de la forme 


(Par: 0541)" = ÔnGn ET ê,, X n) + Yn- 
L'équation pour les estimations dans le cas particulier du point 2.2 
s'écrira de façon analogue: 


TE: (SN D — Cnên (Ÿ, x) + Ban Pa 6,) Xh à di Ÿn: 


Si l’on doit estimer non pas toutes les coordonnées des vecteurs 
Y,, mais une partie d’entre elles seulement, alors il convient, dans 
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l'équation des estimations, de prendre les fonctions &, (£;: et h 
dans le cas particulier du point 2.2), ne dépendant que de la partie 


correspondante des coordonnées du vecteur Ÿ, (il est évident qu'il 
faut alors estimer tous les paramètres inconnus). En particulier, si 
l’on veut estimer uniquement les paramètres inconnus dans l’équa- 
tion aux différences finies, alors les fonctions &, (E, et n, dans le cas 


particulier du point 2.2) doivent être choisies indépendantes de Y: 


Exemple 4. La suite des variables aléatoires scalaires {Y,} est définie 
dans l'équation 
Yata = 0Yn + Va 


où 6 est un paramètre inconnu, {V,} une suite de variables aléatoires indépen- 


dantes. Trouver les estimations linéaires optimales 6,, Ÿ, du paramètre 6 
et des variables Y,,, définies par l’équation 


Ms On] =an[Ÿn On]7 +BnXn—+Yn; 
à partir des résultats de l’observation des variables X, = Y, + U,, où {U,} 
est une suite de variables aléatoires indépendantes, indépendante de {V,). 
Les valeurs optimales «,, B, et y, sont alors définies par le système des 
équations algébriques linéaires (19) pour les valeurs 
MY nOnŸn— MYnOnMŸn MYnOnÔn—MYnOnMôn 
MOnŸn— MOnMŸn M610n—MOnMôn  — 
X% = [MYEOn— MY nOnMYn MYnOn—MYnMOn]T, 
: |] MŸL—(MŸ n)  MŸn0n—MŸnMôn 
K11 — Sn Am PS PS A” 
MY nO0n—MYnMOn M8; —(M6,)° 
2 = OT MY nn — MY nMŸn MY nôn—MYnMBn]", 
AS = MY$ —(MYn)} +Gn, 


ON) — 
Ko1i — 


, 


où Gr est la variance de la variable U,. La valeur optimale fÿyh est défi- 
nie par la formule (20): 


Yn=[MYn0h MOn]} —an [MŸ n Môn]? —BnAMY n. 
L'équation (22) pour la fonction caractéristique des variables [Yn, 8», 
Ÿnôn est de la forme 
£n (à, H)=hn-1 (À) En: (BF-1n) X 


O0 O0 O0 O0 
* 


xt | | | À exp th y0+ 140 auT (ans 19617 + 


—00 —00 — 0 —00 


+ Pn-19 + Yn-1)} În1 (y, 6, y', 6") dy d6 dy" dû”, 


où À={l]T, B=[pilolT, Rn-1 (A) et En-1 (N') sont les fonctions caracté- 
ristiques des variables Vn-1 et Un-, respectivement, et fn_1 (y, 6, y’, 0°) 
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la densité de probabilité du vecteur aléatoire [Yn_1:8n-: Y.… 8h]? : 
co Oo O0 O0 
a DOS OU OL À -itinthe *+u0" 
fn-1 (y, 6, y” 0°)= D TT | | | | e”itAiy+hs0+u1y" +120 en X 


— 00 — 00 —00 — 00 
X (Aus Âgs His Ho) d'A dho di due. 
Les moments des variables Y,, 6,, Ÿ,, 9, figurant dans les formules obte- 
nues pour x; et y, peuvent être calculés, comme dans l'exemple 1, soit en dé- 


rivant Ja fonction caractéristique g,, soit en intégrant, après avoir préalablement 
calculé la densité de probabilité f,, (y, 6, y’, 6”). 

Pour la résolution approchée du robes par la méthode du point 2.6, 
on peut dériver l'équation pour g, (A1, À, Ms Me) par rapport à À4, À, Ji LU 
et pour tous les couples de ces variables, poser après cela À = À, = pu, = le — Ô 
et remplacer tous les moments d'ordre supérieur à 2 par leurs expressions en 
fonction des moments du premier et du second ordre a l’aide des formules du 
point 4.5.3 pour la distribution normale. Nous obtenons alors des formules 
récurrentes pour définir les moments du premier et du second ordre du vecteur 


[YhOn Ÿh8n]7. Tous les moments figurant dans les formules pour #; et y, 


ainsi que la matrice À, des moments du second ordre de l'erreur Y, — Y, 
s'exprimeront en fonction de ces moments. 


Exemple 5. Dans les conditions de l'exemple 4, trouver l'estimation 
linéaire du seul paramètre A défini par l'équation 


Ons1 =nOn +BnXn+Yn. 
Nous avons dans ce cas 


= IMY On 0n—MYnOnMOn MOnÔ0n—MOnMOnI?, 

x (7) = x(mT = MY nôn—MYnM@n, 

x(D = Mn —(Môn)?, 
où x” et x22’ ont les mêmes valeurs que dans l'exemple précédent. La valeur 
optimale y, est déterminée par la formule 

Yn = MOn—anMOn—BnMYn. 
L'équation (22) pour la fonction caractéristique des variables Y,, 6,, 

6h est de la forme 
En (À, H)=hn-1 (À1) En=1 (Bn-1l) X 


x | | exp {iA1Y0 + 4,0 + ip (an10" + Bn-19 + Yn-1)} X 


—00 —00 — 00 


| X fn-1 (y, 6, 0°) dy d6 dB”, 
où 


| exp {—i(Aiy +0 + u0")} X 


0 
În-1 (y, 0, 8 = | 


— 0 —0o0 


X En-1 (A1, À M) da dAs du. 


Tout ce que nous avons dit à la fin de l’exemple 4 relativement à la définition 
approchée de g, (à, u) se rapporte entièrement au cas présent. 


26% 


404 MODELES STATISTIQUES, II [CH. 10 


La méthode des points 2.1 et 2.2 permet non seulement d'estimer 
les paramètres inconnus dans les systèmes décrits par des équations 
aux différences finies connues, mais de construire des modèles statis- 
tiques des systèmes non susceptibles d'une description mathématique 
à l'aide de certaines équations. 

Après avoir sélectionné les variables les plus importantes, déter- 
minant l’état du système à chaque instant donné, et les avoir reliées 
par une équation aux différences finies de forme adéquate contenant 
un nombre suffisant de paramètres inconnus, on peut, à partir des 
résultats de l'observation du fonctionnement du système (à l’aide 
des mesures effectuées sur le système), estimer par la méthode expo- 
sée aux points 2.1 et 2.2 tous les paramètres inconnus et, de la sorte, 
obtenir un modèle statistique du système décrit par une équation aux 
différences finies. En prenant plusieurs équations aux différences 
finies, on peut, parallèlement, estimer leurs paramètres inconnus, 
comparer les modèles correspondants d’après les erreurs quadratiques 
moyennes des estimations des paramètres et choisir la variante la 
plus convenable. 

Ainsi, la méthode que nous avons exposée ici d'estimation des 
variables définies par des équations aux différences finies et des 
paramètres inconnus qu’elles contiennent ouvre un large champ d'ap- 
plication. 


$ 3. Modèles factoriels 


3.1. Problèmes de l’analyse factorielle. Dans de nombreux pro- 
blémes pratiques, on doit étudier des vecteurs aléatoires de grande 
dimension. Il s'avère alors que la distribution du vecteur aléatoire 
est concentrée au voisinage d’un certain sous-espace de dimension 
notablement inférieure (l’ellipsoïde de dispersion est aplati dans cer- 
taines directions de telle sorte que, dans ces directions, on peut 
négliger ses dimensions). Dans ces conditions, on peut représenter 
le vecteur aléatoire avec une précision suffisante pour la pratique 
comme le résultat de transformations linéaires d’un vecteur aléatoire 
de dimensions moindres. À ce propos, un problème statistique impor- 
tant est celui de la recherche d'une représentation linéaire approchée 
du vecteur aléatoire à l’aide d’un vecteur de dimensions moindres 
à partir des résultats des épreuves. Une particularité caractéristique 
de ce problème réside dans le fait que le vecteur de dimensions infé- 
rieures à l’aide duquel on doit exprimer le vecteur aléatoire observé 
n’est pas observé directement et on ne sait rien de ce vecteur. 

Il est clair que la solution du problème relatif à la possibilité 
d’une représentation exacte d’un vecteur aléatoire en fonction d’un 
vecteur de dimensions inférieures à partir des données expérimentales 
est en principe impossible. On ne peut que s’efforcer d'élaborer un 
modèle correspondant et de déterminer si l’hypothèse relative au 
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fait que la distribution est concentrée dans un certain sous-espace 
concorde avec les données expérimentales. 

Supposons que par la suite de rz épreuves on observe un vecteur 
aléatoire Ÿ à m dimensions représentant la somme du vecteur aléa- 
toire À qui nous intéresse et d’une erreur de mesure Z. En suppo- 
sant que le vecteur X puisse être représenté comme une fonction 
linéaire du vecteur à r dimensions V = [V,,.., VIT ,r << m, nous 
pouvons écrire 


; 
Y=X1Z=m+ D Vrtp+Z. (32) 
pi 
Nous parvenons ainsi au problème de l'élaboration du modéle (32) 
à partir des résultats de l'observation du vecteur Ÿ. Les méthodes de 
résolution de ce problème constituent le contenu de l'analyse facto- 
rielle [50, 1181. 

Etant donné que tout vecteur aléatoire peut être ramené à un 
vecteur dont les coordonnées sont non corrélées, alors, sans restrein- 
dre la généralité, on peut considérer que les variables V,, ..., Y, 
figurant dans (32) sont non corrélées. 

Les erreurs de mesure des coordonnées du vecteur aléatoire sont 
habituellement considérées non corrélées, aussi bien entre elles qu'a- 
vec le vecteur à mesurer. Dans ce cas, le vecteur Z n’est pas corrélé 
avec les variables V,,..., V, et sa matrice de variances-covariances 
est diagonale. 

Il est clair que la solution du problème de la représentation du 
vecteur observé Ÿ par la formule (32) n’est pas univoque. Toute trans- 
formation linéaire du vecteur V conduisant à un vecteur de même 
dimension r conserve la structure du modèle (32) inchangée. En parti- 
culier, en multipliant les variables V,, ..., V, par les nombres cor- 
respondants et les vecteurs x,, . . ., x, par les nombres inverses, on 
peut rendre les variances des variables V,,..., V, égales à n’impor- 
te quel nombre fixé à l'avance, en particulier les ramener toutes 
à la valeur 1. 

Nous pouvons ainsi supposer que les conditions suivantes sont 
vérifiées : 

1) les variables aléatoires V,,..., V, figurant dans (32) ne sont 
pas corrélées : 

2) l'erreur de mesures Z a une espérance mathématique nulle, 
n’est pas corrélée avec les variables V,,..., V,et sa matrice de va- 
riances-covariances est diagonale ; 

3) les variances des variables V,,..., V, sont égales à 1. 

Le modèle du vecteur aléatoire observé Y, défini par la formu- 
le (32) en présence des conditions 1) à 3), est appelé modèle factoriel. 
Les variables aléatoires V,, . .., V, sont appelées facteurs *). Les 


*) Le terme facteur a un sens différent en analyse factorielle et en analyse 
de la variance. 


406 MODELES STATISTIQUES, II [CH. 10 


coordonnées du vecteur x, sont appelées les poids des coordonnées 
correspondantes du vecteur Ÿ (ou du vecteur X) associés au p-ième 
facteur (p = 1,...,r). Les variances des coordonnées du vecteur À, 
défini par la somme dans (32), sont appelées variances des facteurs. 

Le problème de l'élaboration du modèle factoriel (32) est en prin- 
cipe équivalent au problème de la recherche de la décomposition 
canonique du vecteur X ($ 3.4) à partir des résultats de l’observation 
du vecteur Y — X + Z (c'est-à-dire à partir des résultats de l’ob- 
servation du vecteur X avec les erreurs). On ne peut pas toutefois 
appliquer directement les méthodes du paragraphe 3.4 pour résoudre 
ce problème, car, pour cela, il faut connaître la matrice de variances- 
covariances du vecteur X. Dans ce cas, nous pouvons seulement utili- 
ser l'estimation de la matrice de variances-covariances du vecteur Y 
obtenue à partir des résultats des épreuves. Pour trouver une appro- 
che de la solution du problème posé, représentons la matrice de va- 
riances-covariances À. du vecteur X à l’aide de la décomposition cano- 
nique (3.75). La matrice de variances-covariances du vecteur Ÿ 
s’exprimera alors, en vertu de (32) et des conditions 1) à 3), par la 
formule 

: 


Ky=Ke+Ki= Z tnXr + Ko: (33) 
Comme la matrice X, est diagonale, tous les éléments non diagonaux 
de la matrice K,, coïncideront avec les éléments correspondants de 
la matrice X,. C'est pourquoi on peut adopter les estimations des 
éléments non diagonaux de la matrice K, trouvées à partir des résul- 
tats des épreuves en qualité d'estimations des éléments correspon- 
dants de la matrice X.. Quant aux éléments diagonaux de la matri- 
ce K, (les variances des facteurs), ils resteront inconnus. 

Ainsi, le problème de l'élaboration du modèle factoriel (32) se 
ramène à la recherche de la décomposition canonique du vecteur X 
dans le cas où les éléments diagonaux de sa matrice de variances- 
covariances À, sont inconnus. 

Pour surmonter cette difficulté, on peut proposer deux approches 
différentes. La première approche consiste à rechercher, au lieu de 
la décomposition canonique du vecteur X, la décomposition canoni- 
que du vecteur Ÿ. Après avoir déterminé les r premiers termes de cet- 
te décomposition, on réunit tous les m—r termes restants dans l'erreur 
Z, en négligeant la corrélation des coordonnées du vecteur Z ainsi 
obtenu. La seconde approche consiste à remplacer les variances incon- 
nues des facteurs par des nombres positifs arbitraires et à combiner la 
méthode des décompositions canoniques avec la méthode des itéra- 
tions. 

3.2. Méthode des composantes principales. La première approche 
est à la base de la méthode des composantes principales utilisant la 
décomposition du vecteur aléatoire observé d'après les vecteurs 
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propres. Nous avons vu, dans l'exemple 7.13, que les estimations 
du maximum de vraisemblance des valeurs propres et des vecteurs 
propres étaient les valeurs propres et les vecteurs propres de l’esti- 
mation de la matrice de variances-covariances obtenue par le maxi- 
mum de vraisemblance. Si les estimations trouvées des valeurs pro- 
pres sont disposées dans l’ordre décroissant et qu'il s'avère alors que 
la somme des m — r dernières valeurs propres est suffisamment faible 
par rapport à la somme globale de toutes les valeurs propres, alors 
les composantes principales correspondantes peuvent être associées 
aux erreurs de mesure, c’est-à-dire peuvent être incluses dans le 
vecteur Z. Dans ce cas, la décomposition (3.66) du vecteur aléatoire Y 
à l’aide des vecteurs propres conduit au modèle factoriel recherché 
(32), si l’on pose 


p=Upl V hp 2=@QpVhn (= Less 


Exemple 6. On a obtenu, à l’aide des données expérimentales, l'esti- 
mation de la matrice de variances-covariances X,, présentée dans l'exemple 3.14. 
Cette estimation correspond aux valeurs propres trouvées dans l'exemple 3.14: 
A1 = 6,0500, À; — 0,9002, A9 — 0,7134, À4 — 0,2603, À; — 0,0560. Ces valeurs 
propres peuvent être adoptées en qualite d'’estimations des valeurs propres 
correspondantes de la matrice de variances-covariances du vecteur aléatoire Y. 

Etant donné que la somme des deux dernières valeurs propres À4 + À; 
constitue moins de 4 % de la somme de toutes les valeurs propres, on peut con- 
server, dans la décomposition, uniquement les trois premières composantes 
principales. Nous obtenons ainsi un modéle à trois facteurs 


Yi = 1,354V, — 0,086V, — 0,013F; + Zi, 
Ye = 1,310V, — 0,234V, — 0,304V3 + Z2, 
Ya = 1,325V, — 0,035V, — 0,147Va + Za, 
Y, = 0,840V, + 0,009V, +- 0,764 + Zu, 
Yy = 0,502V, + 0,913V, — 0,093V3 + Z. 


La méthode des composantes principales, comme toute méthode 
basée sur la définition des valeurs propres et des vecteurs pro- 
pres, exige des calculs complexes et ne peut être appliquée pratique- 
ment qu'à l’aide d’un ordinateur. 

D'autres méthodes d'analyse factorielle sont basées sur d’autres 
décompositions canoniques. Elles ne diffèrent, en fait, qu’au sens 
du choix des vecteurs g,, ..., g, dans l'algorithme général du 
point 3.4.3. 

3.3. La méthode centroïde. L'une des méthodes d'analyse facto- 
rielle la plus couramment utilisée est la méthode centroïde {[50, 1181]. 
Cette méthode est basée sur le choix successif suivant de chaque 
vecteur g,. On choisit tout d'abord un vecteur q. linéairement indé- 
pendant des vecteurs précédents g,, . . ., g,_-, et dont toutes les coor- 
données sont égales à + 1 ou —1 et définies de sorte que le nombre 


de termes négatifs dans la forme quadratique qT K'£ q,, où, en vertu 
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de (3.73) et de la condition 3),on a 


s—i 
« T k 
as = K,, K® — K,— à LpTlhp (se, 5 r), (34) 
p— 


soit minimal. On définit ensuite le vecteur g, par la formule 


___ T8 = 
Ba = Van (39) 


En portant cette expression dans les deux dernières formules de 
(3.72), nous aurons D, — g KOg —1 et 


— Kg > re (s—1,...,r). (36) 
‘ Va kgs | | 


Les calculs des coordonnées des vecteurs x,, . . ., x, à l’aide de cette 
formule se ramènent à la sommation des éléments des colonnes cor- 
respondantes des matrices X'' = K,, K°£, ..., K'% en modifiant le 
signe de certains d’entre eux et en divisant les sommes obtenues par 
la racine carrée de la somme de tous les éléments de la matrice corres- 
pondante Æ'? avec les mêmes modifications des signes de leurs 
éléments. C’est pourquoi la méthode centroïde est souvent appelée 
méthode de sommation simple. 

L'application directe de la formule (36), comme nous l'avons 
déjà remarqué, n’est pas possible du fait que les éléments diagonaux 
de la matrice X, sont inconnus. En appliquant la première méthode 
pour surmonter cette difficulté, on remplace, dans (36), Æ, par 


l'estimation k, de la matrice Æ, trouvée à l'appui des résultats des 
épreuves. Après avoir déterminé les r premiers termes de la décom- 
position canonique du vecteur Ÿ, on inclut les termes restants dans 
l'erreur Z en négligeant la corrélation entre les coordonnées du 
vecteur Z ainsi obtenu. Dans la deuxième approche, on adopte, en 
première approximation, en qualité d’estimations des variances des 
facteurs les plus grands modules des éléments des lignes et des colon- 
nes correspondantes et on applique la méthode des itérations. Après 
avoir effectué les calculs à l’aide de la formule (36) dans la première 
approximation, on définit les éléments diagonaux de la matrice X, 
dans la seconde approximation comme les sommes des carrés des 
coordonnées correspondantes des vecteurs x,, ..., x. En répétant 
les calculs d’après la formule (36), on trouve les vecteurs 1, . . .. x, 
de la seconde approximation, etc. Le processus d'approximations 
successives se termine quand une approximation donnée coïncide 
avec une précision suffisante avec la précédente. 

3.4. Rotation des facteurs. Etant donné que les facteurs doivent 
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avoir, par définition, des variances-unités, nous parvenons à cette: 
conclusion que les facteurs sont déterminés à une transformation. 
orthogonale arbitraire près, c’est-à-dire à une rotation près. En effet, 
soit W — 4. Nous avons alors, en vertu de (3.50), X,, — AK, ,AT— 
— AJAT — AAT. Il en découle que X, = 1 si et seulement si 
AT = À-1, c'est-à-dire si la matrice À est orthogonale. Une trans- 
formation orthogonale arbitraire des facteurs conduit à un nouveau 
système de facteurs. Cela est habituellement utilisé pour simplifier 
l'interprétation des résultats de l'analyse factorielle. Après avoir- 
déterminé les facteurs, on effectue une rotation de ces facteurs de 
telle sorte que certaines coordonnées du vecteur Ÿ possèdent les- 
poids les plus forts pour un seul facteur et des poids proches de 0: 
pour les autres facteurs. 

Pour la détermination initiale des facteurs, on peut appliquer 
n'importe quelle méthode d'analyse factorielle, en particulier la 
méthode des composantes principales *). 

Il est clair que dans la transformation des facteurs par une rota- 
tion et leur réduction à une forme « commode » pour l'analyse il 
y a une grande subjectivité. C'est pourquoi différents chercheurs peu- 
vent interpréter les mêmes données expérimentales de différentes: 
façons. Dans la recherche d'une forme des facteurs commode pour 
l'analyse, on transforme souvent, dans les applications, et en parti- 
culier dans le domaine de la psychologie, les facteurs de telle sorte- 
qu’en résultat on obtient des facteurs corrélés. 

Pour élaborer des modèles factoriels, on norme souvent les coor- 
données du vecteur observé Y en les divisant par les estimations de 
leurs écarts-types. Dans ce cas, la matrice de variances-covariances. 
K,, du vecteur observé Y est remplacée par la matrice de corréla- 
tion À; 

Exemple 7**). Les résultats de 23 observations d'un vecteur aléatoire- 
à 9 dimensions sont présentés dans la table de la page 410. 

Elaborer le modéle factoriel en ne tenant compte que des composantes. 
principales qui correspondent à 80 % de la somme de toutes les valeurs propres. 
de la matrice de corrélation (qui expliquent 80 % de la variance). 

En appliquant le programme FACTO, on calcule sur ordinateur les quatre 
or valeurs propres de la matrice de corrélation du vecteur observé: 

1 — 2,94989, À, — 1,64368, Às = 1,55515 et A4 = 1,06579, dont la somme 
constitue 0,80161 de la somme des neuf valeurs propres (qui, évidemment, est 


*) La méthode d'analyse factoriclle, basée sur la détermination initiale des. 
facteurs par la méthode des composantes principales, a été réalisée dans le 
rogramme FACTO qui utilise, pour différentes étapes d'analyse factorielle, 
es sous-programmes standards CORRE (pour le calcul des moyennes empiriques, 
des seconds moments et des coefficients de corrélation empiriques), EIGEN 
(pour la détermination des valeurs propres et des vecteurs propres), TRACE 
(pour rejeter les faibles valeurs propres), LOAD (pour le calcul des poids des. 
facteurs) et VARMX (pour la rotation dite varimar, optimale à un certain sens, 
des facteurs) [106]. 
*+) Cet exemple a été emprunté à [94]. 
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-égale à la trace de la matrice de corrélation, c'est-à-dire à 9) et on obtient le 
modèle à 4 facteurs suivant: 


Y1 = 9,30435 + 2,70412 (0,05498V, + 0,07183V, — 0,05578V; + 
+ 0,85017V,) + Z, 
Y, — 12,60870 + 4,59978 (0,29329V, — 0,39653V, -— 0,35581 Vs + 


+ 0,60550V4) + Z2, 
Y, = 23,00000 + 5,33427 (0,05114V, — 0,82494V, + 
+ 0,45068V, + 0,32984V,) + Zs, 
Y, — 18,00000 + 8,33393 (0,74041V, — 0,41401V, + 0,24580V, + 
+ 0,13972V,) + Za, 
Ys = 12,86957 + 3,13781 (—0,09091 V, + 0,80662V, + 
+ 01352514 + 0,39228F,) + Z:, 
Ye — 34,82608 + 9,29149 (—0,68286V, — 0,21579V, — 0,44983V; — 
— 0,20503F,) + Zu, 
Y, — 54,00000 + 14,87826 (0,86997V, — 0,18299V, — 0,34918V, + 
+ 0,088301,) + Z:, 
Y, — 19,39130 + 5,56563 (0,03602V, — 0,05500V, + 0,91376V4 — 
—0,15962V,) + Ze, 
Y = 25,13043 + 6,09249 (0,80532V, — 0,32759V. + 0,00994V, — 
—0,02380V,) + Z9. 
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Les premiers termes représentent ici les moyennes empiriques et les facteurs 
figurant devant les parenthèses sont les écarts-types des coordonnées corres- 
pondantes du vecteur Y. 


3.5. Application de la méthode du point 3.4.5. Pour éviter la 
rotation des facteurs et obtenir directement un modéle factoriel pour 
lequel un grand nombre de poids des facteurs est nul ou proche de O0, 
on peut appliquer, pour trouver la décomposition canonique du 
vecteur X, la méthode du point 3.4.5. Dans ce cas, étant donné que 
l’ordre de numérotation des coordonnées des vecteurs peut être arbi- 
traire, on peut, au fur et à mesure des calculs, établir une nouvelle 
numérotation de ces coordonnées de manière à obtenir un modele 
suffisamment bon (dans la mesure du possible, telle que la grandeur 
relative globale des faibles poids soit la plus petite possible). 

Afin d'appliquer la méthode du point 3.4.5 pour élaborer le 
modèle factoriel, choisissons en qualité de vecteurs gg, . . ., qg, les 
vecteurs-unités des r premiers axes de coordonnées 


ge =(0...010...01 CES RTE à) 


(la lettre s au-dessus de l'unité montre que cette valeur unité s@ 
trouve à la s-ième place). Pour un tel choix des vecteurs q,, . . .; Qr 
la formule (36) donne 


kip 


PP ee (D= 1,2: M), 
11 
Tai... — Ts, 58-14 — 0, (37) 
x 22 Kkap —Ti1sT1p — CE . — Lg]. sTa—1, P 
Sp EEE — —— 
V'hss—2ti,—...— 25 1, 
(DES MES 2 SET), 
OÙ Æpy (Ps 9 — 1, ...., m) désigne les éléments de la matrice X.. 


En combinant les formules (37) avec la modification correspon- 
dante de la numérotation des coordonnées des vecteurs, nous parve- 
nons à un modèle vectoriel pour lequel un grand nombre de poids des 
facteurs est 0 ou proche de À, sans avoir recours à la rotation des 
facteurs. 

Pour trouver un critère permettant d'établir la nouvelle numé- 
rotation des coordonnées des vecteurs, remarquons que la part du 
premier facteur V, dans la variance de la p-ième coordonnée du vec- 
teur À est égale au rapport z°,/k,,. C'est pourquoi il est naturel de 
choisir la première coordonnée du vecteur X et, par conséquent, le 
premier facteur V,, de sorte que la part globale du premier facteur V, 
dans les variances des coordonnées X,, ..., X, du vecteur X soit 
minimale. Nous obtenons alors la condition 


m r° 
Es — — = min. (5©) 


Po LP 
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En prenant successivement toutes les coordonnées du vecteur À en 
qualité de première coordonnée et en calculant chaque fois la quan- 
tité &,, nous choisirons, en qualité de première coordonnée, celle pour 
laquelle €, prend la valeur minimale. En raisonnant de la sorte. nous 
choisirons comme s-ième coordonnée celle des m — s + 1 coordonnées 
du vecteur X pour laquelle la quantité 


m 


x 
sp _9 
FN DR Re NU PA 


prend la valeur minimale. 

Pour effectuer les calculs d’après les formules (37), on doit, de 
même que lors de l'application des autres méthodes d'analyse 
factorielle, ou bien remplacer K, par la matrice X,,ou bien appliquer 
la méthode des itérations en se donnant, comme première approxi- 
mation, une estimation arbitraire grossièrement approchée des élé- 
ments diagonaux de la matrice X.. 

Cette méthode d'élaboration du modèle factoriel (d'analyse facto- 
rielle) représente une variante de la décomposition triangulaire [1181]. 
Cette appellation s'explique par le fait que, dans cette méthode, dans 
le cas où r — m la matrice de variances-covariances Æ, peut être 
représentée sous forme du produit d’une matrice triangulaire x dont 
les colonnes sont les vecteurs x;, . . ., Tm, par sa transposée : X,—=zx2T. 

3.6. Estimation des facteurs. Dans de nombreux problèmes, 
outre l'élaboration du modèle factoriel, il faut encore trouver les 
estimations des facteurs V,,..., V, pour chacune des épreuves réali- 
sées. I] suffit pour cela d'utiliser la formule (3.72). En portant dans 
cette formule l'expression (35) du vecteur g,, nous obtenons les for- 
mules récurrentes 


0 
ju 
Ve K'+q1 
s—1 
HS Vnzp) 
= ———#" —_—— (= 2er): 


2 qqs 
En substituant ici l’expression X°=Y +Z—m,=Y+Z—m, 
et en remplaçant l’inconnue “ par son estimation Ÿ, nous obtenons 
V,— Ca o— (Y — Y+2)_ 


OVER xd | 


<— 
qgT (Y—Y— à Vprp+2) 
rs — 
| AHSA 
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Les épreuves nous fournissent les réalisations Ÿ,, ..., Y, de la varia- 


ble Ÿ et on calcule leur moyenne d’échantillonnage Y et les estima- 
tions des vecteurs x,, . .., x.. Les réalisations correspondantes du vec- 
teur des erreurs Z restent inconnues. Pour obtenir les estimations des 
facteurs pour chacune des épreuves réalisées, il est rationnel d'’utili- 
ser la régression des facteurs V,,..., V,sur Ÿ, autrement dit d’adop- 
ter, en qualité d’estimations des facteurs V,, ..., V,, leurs espéran- 
ces mathématiques conditionnelles par rapport au vecteur observé Y. 
Nous obtenons en définitive, compte tenu du fait que m, = 0, les 
relations 


V, — qaT (Y—Ÿ) 
V aTKx9 
. CS | h (40) 
| gi (Y—-Y— SN lprp) 
V7 —— (s=2,...,r). 
° V 3 ka 


Une autre méthode pour obtenir la régression linéaire des facteurs 
sur le vecteur observé Ÿ est basée sur l'application des équations 
(9.14) et (9.15), qui, dans ce cas. sont de la forme 


gK,y= Koy = M, — gm, = — gm,, (41) 
où K,, désigne la matrice de covariances croisées des vecteurs aléa- 
toires V = [V, ... V,IT et Y. L'’estimation de la matrice X, est 


trouvée directement à partir des données expérimentales. Il reste 
à trouver l'estimation de la matrice X,,. En vertu de (32), nous avons 


Key MVY = MV(mi+Vlal 22") = MVV'al = Kix= x, 
où nous avons désigné par x la matrice dont les colonnes sont les vec- 
teurs x, ..., x. Ainsi, les équations (41) deviennent 

gKy=2T, a—= — gm,. 
En résolvant ces équations et en remplaçant m, par son estimation a 
nous obtenons g = 2TK;, a = — xTK,1Y. Après cela, nous trou- 
vons la régression linéaire du vecteur V sur YŸ : 
V=gY +a—=axT Ky(Y — Ÿ). 
Nous en tirons les estimations des facteurs 


V,= KR —Ÿ) (s=1..,n. (42) 


(8 


Les formules (40) et (42) fournissent des estimations différentes 
des facteurs. Cette différence s'explique par le fait que, pour les 
établir, on utilise des estimations différentes de la régression des 
facteurs sur le vecteur observé. 
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$ 4. Modèles de reconnaissance 


4.1. Position mathématique des problèmes de reconnaissance. 
Comme nous l’avons déjà dit au point 9.1.1, la modélisation des 
processus de reconnaissance présente une grande importance pratique. 
Le problème de reconnaissance consiste à déterminer, à partir de 
l'observation d’un certain objet figurant dans un ensemble d’objets 
appartenant à des classes différentes, à laquelle de ces classes appar- 
tient l'objet observé (par exemple, d'après le dessin manuscrit d’une 
lettre, déterminer quelle lettre est écrite; d’après un signal électro- 
magnétique ou auditif enregistré, déterminer quelle source a provoqué 
ce signal ; à partir des données des forages géologiques à déterminer, 
quels minéraux se trouvent dans la région d'investigation, etc.). 
Du fait de la grande diversité des objets observés que l’on doit recon- 
naître, on les réunit habituellement tous sous l’appellation abstraite 
de forme et le problème est alors posé en termes de reconnaissance des 
formes. Cette terminologie s'explique par le fait que les premiers pro- 
blèmes de reconnaissance automatique ont été les problèmes de recon- 
naissance des images. 

Pour élaborer un modèle du processus de reconnaissance, il est 
avant tout nécessaire de caractériser les formes observées par certai- 
nés grandeurs, que l’on peut introduire dans le système de reconnais- 
sance, par exemple dans l'ordinateur. Ces grandeurs peuvent avoir 
différentes valeurs pour différentes formes, même appartenant à une 
même classe. Les choix du nombre et du caractère des variables — 
des indices informatifs — caractérisant les formes représentent la 
première étape de l'élaboration d’un modèle de reconnaissance. Cette 
question doit étre résolue concrètement pour chaque problème de 
reconnaissance en tenant compte des possibilités d'effectuer les mesu- 
res nécessaires. Ce n’est qu'après cela que l’on peut formuler la posi- 
tion mathématique du problème donné de reconnaissance. 

Présentons maintenant la position mathématique générale du 
problème de reconnaissance, qui doit servir de base à l’élaboration 
des modèles de reconnaissance. Soient x l’ensemble de toutes les varia- 
bles (indices) caractérisant les formes devant être reconnues (dans ce 
nombre, il peut y avoir également des indices qualitatifs ne prenant 
que les valeurs 0 et 1) et y le numéro de la classe des formes. Le 
problème consiste à déterminer, à partir de la valeur observée de x, 
la valeur de la variable y. 

Dans la majorité des problèmes pratiques, les variables observées 
sont aléatoires et suivent des distributions différentes pour les diver- 
ses classes de formes, c’est-à-dire pour Îles différentes valeurs de y. 
Le caractère aléatoire des variables observées a pour effet qu'une 
même valeur de z peut être observée pour différentes valeurs de y. De 
ce fait, le problème de reconnaissance ne peut, en principe, être 
résolu d’une manière absolument rigoureuse et devient un problème 
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statistique. En pareil cas, le problème de reconnaissance se ramène 


à la recherche de l'estimation y du paramètre y à partir de la valeur: 
observée x de la variable aléatoire X. 
Le modèle du processus de reconnaissance représente la dépen- 


dance de l’estimation y du numéro de la classe des formes y de la va- 
leur x de la variable aléatoire observée X. L'élaboration d’un modèle: 
de reconnaissance se ramène à appréhender cette dépendance. Il est. 
clair que cette dépendance doit être déterminée de telle sorte que le: 
nombre d'erreurs, lors de l'application du modèle de reconnaissance, 
soit le plus faible possible. Nous nous limiterons ici, de même que 
dans le cas des modèles de régression, au cas où la variable observée X 
représente un vecteur aléatoire de dimension finie. 

Supposons que les réalisations des formes appartenant à diffé- 
rentes classes représentent des événements (incompatibles et formant 
un groupe complet). Dans ce cas, le numéro y de la classe des formes 
auquel appartient la forme observée représente la réalisation de la 
variable aléatoire discrète Y dont les valeurs possibles sont 1, . . ., N, 
où V désigne le nombre de classes des formes devant être reconnues. 
Soient p1, ..., pn les probabilités associées à ces valeurs, c'est-à- 
dire les probabilités a priori d'apparition des formes appartenant 
à la première, . . ., la V-ième classes, f (x | y) la densité de probabi- 
lité conditionnelle de la variable observée X pour une valeur donnée 
y de la variable Y. 

Il est évident que le problème de reconnaissance ne peut être: 
résolu que dans le cas où, pour aucun couple de classes, leurs densités. 
de probabilité f (x | 1), ..., f (x | N) ne coïncident pas identique- 
ment, autrement dit, quand la variable X suit des distributions 
différentes pour des formes appartenant à différentes classes. C’est 
précisément cette différence dans les distributions conditionnelles 
de la variable X qui constitue l'indice permettant de différencier les 
formes appartenant à différentes classes. Si certaines densités de 
probabilité f (x | 1), ..., f (x | N) coïncident, alors les formes des. 
classes correspondantes sont évidemment indiscernables. 

Du fait du caractère aléatoire de la variable observée X, l’esti- 


mation y du numéro de la classe des formes, élaborée par le modele: 
de reconnaissance, représente, comme toujours dans les problèmes 
de statistique mathématique, une réalisation de la variable aléatoire 


Y. Une décision juste correspond à la coïncidence de Y avec Y. Si 


Y = Y , alors le modèle de reconnaissance prend une décision erronée. 
Dans ce cas, N (N — 1) différentes sortes d'erreurs sont possibles, 
étant donné que le modèle peut choisir chacune des W classes comme 
la forme associée à l’une des (W — 1) autres classes (à chaque valeur 
y = 1,...,N de la variable Ÿ peut correspondre l’une quelconque 


des N — 1 valeurs de Ÿ ne coïncidant pas avec y). Désignons par 


416 MODÈLES STATISTIQUES, II [CH. 10 


“nr: la probabilité conditionnelle de l'événement Ÿ =k quand 
Y 


? 


au =P(Ÿ=RkIY =D (k,l1=1,...,N). 


Les quantités aus (k — 1, ..., N) représentent les probabilités 
conditionnelles des décisions justes pour les valeurs correspondan- 
tes de la variable Y’, et les quantités au (k, 1 =1,...,N;:k=#l) 
représentent les probabilités conditionnelles des décisions erronées 
de différentes sortes. La probabilité d’une décision juste (non condi- 
tionnelle) est déterminée par la formule de probabilités totales (1.14): 


, N 
p=P(Y=Y)—= 2 Pr (43) 


La probabilité d’une décision erronée (sans qu'elle soit précisée de 
quelle forme) est évidemment égale à g = 1 — p. 

L'élaboration d’un modèle déterministe de reconnaissance se 
ramène, bien entendu, à partitionner l’espace des valeurs de la 
variable À en V parties disjointes, que nous noterons 4,,..., An, 


et à déterminer la dépendance de Ÿ de X par la formule 


mm 


Ÿ—k si XEA, (k—=1,... N). 


Dans ce cas, le modèle de reconnaissance prendra la décision que la 
forme appartient à la k-ième classe quand la variable X appartiendra 
au domaine À}, (k = 1, ..., N). 

L'élaboration d'un modèle stochastique de reconnaissance se 
ramène à établir la dépendance de X des probabilités Ô (1 | À), ... 
...…, Ô(N | X) d'affectation de la forme observée à la première, 
à la seconde, etc., à la V-ième classes. Dans ce cas, le modèle de 
reconnaissance calculera, à partir de la valeur zx de la variable X, les 
probabilités 6 (1 1x), ..., 8 (N | x) et élaborera, en fonction de 


ces probabilités, par simulation aléatoire, la valeur y de l'estima- 


tion Y. 

4.2. Modèles déterministes de reconnaissance. Résolvons tout 
d’abord le problème de l'élaboration d’un modèle déterministe. Les 
frontières entre les domaines À,, ..., A, peuvent être naturelle- 
ment déterminées de telle sorte que la probabilité d’une décision 
juste soit maximale. Un modèle de ce genre sera appelé modèle 
optimal de reconnaissance. Les probabilités ay, (k, = 1, ..., N) 
sont alors déterminées dans ce cas par la formule 


au= | f(ælhadr (kl=1,...N). (44) 


A 
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En portant dans (43) l'expression «;4 tirée de (44), nous obtenons, 
pour les probabilités d’une décision juste, la formule 


p= D pa | f(1#) dx. (45) 


hk=1 AR 


> Considérons tout d’abord le cas de deux classes de formes 
N = 2. Dans ce cas, le domaine 4, représente le complémentaire du 


domaine A,, A, = À,, et la formule (45) devient 


P:= Ps ff 1) dx + pe | f(x|2)dr. 
A1 A 
Or, nous avons l'égalité 


| f(x12)dz=1— | f(x 1 2) dr. 


A1 ; A1 


Nous en tirons par conséquent 


p=pat | Lnf(æl1)—pef (æ | 2) dx. (46) 


A1 


Cela montre que la probabilité d'une décision juste sera maximale si 
l'on adopte, en qualité de domaine 4,, tout le domaine pour lequel 
la fonction à intégrer est positive. En effet, si le domaine À, ne 
représente qu'une partie du domaine où la fonction à intégrer est 
positive, alors l'intégrale dans (46) et, par conséquent, la probabi- 
lité d’une décision juste p seront moindres. Si l’on inclut dans le 
domaine À, une partie du domaine où la fonction à intégrer est néga- 
tive, alors l'intégrale figurant dans (46) et, par conséquent, la pro- 
babilité p seront également moindres. Ainsi, les domaines optimaux 
A, et 4, sont définis par les formules *) 


Ai= {z:pf(e 11) — paf (z 12) >0}, an 
A2 = {z: pif (x 11) — pof (x | 2) < 0}. 
La frontière optimale séparant les domaines À, et À, est définie 


par l'équation 
Pi (z 11) = paf (x | 2). 


On a montré, sur la fig. 37, la frontière optimale, le point x,, sépa- 
rant les domaines À, et 4, dans le cas d’une variable X scalaire. La 
probabilité d’une décision erronée q — 1 — p est égale à l'aire du 
triangle curviligne représentée en noir. Si l’on adopte, en qualité de 
frontière séparant les domaines 4, et A4., le point x, situé à gauche 


*) Nous avons noté, comme toujours, {x:@} l’ensemble des valeurs z 
vérifiant la condition Q. 


27-0244 
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du point x, oule point x, situé à droite du point x,, alors la probabi- 
lité d’une décision erronée augmentera d’une quantité égale à l'aire 
du triangle curviligne hachuré ABC ou, respectivement, CDE. Par 
conséquent, quand on déplace la frontière entre les domaines A, et 4, 


y=pif(xlt) 
y=p2f(xl2) 


X1 Xo X2 
Fig. 37 


de n'importe quel côté du point zx,, la probabilité d'une décision 
erronée qg augmente et, par conséquent, la probabilité d’une décision 
juste p diminue. 

Ainsi, le modèle optimal de reconnaissance doit déterminer la 


valeur y de l'estimation Ÿ d’après la règle suivante: 


SE + JG) | Pre 
JET S ip | 4 
f(x12 


Il apparaît ainsi que le rôle déterminant dans -l’élaboration du 
modèle de reconnaissance appartient au rapport des densités de 
probabilités conditionnelles de la variable X, correspondant aux deux 
classes de formes. Ce rapport est appelé rapport de vraisemblance. 
Il est évident qu'au lieu de prendre le rapport de vraisemblance 
z=f(xz|1)/f(x|2) on peut prendre toute fonction strictement 
croissante de ce rapport 6 (2). 

Ainsi, le modèle optimal de reconnaissance doit calculer une certaine 
fonction strictement croissante du rapport de vraisemblance 6/z et com- 
parer le résultat à la quantité c = 6 (p2/p1), appelée habituellement 


seuil. Si (2) >c, on considère que y = 1. Si6 (2) < c, on considère 


qué y = 2. Cet algorithme est souvent appelé règle décisionnelle. La: 
fonction & (2) est appelée fonction discriminante. Elle est choisie de 
telle sorte que les calculs soient les plus simplés possibles. 
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Montrons que le modèle optimal de reconnaissance trouvé est 
également optimal du point de vue du test du maximum de la pro- 
babilité a posteriori, c’est-à-dire de la probabilité conditionnelle 
P (Y = k]x) d'apparition de la forme de la k-ième classe. pour une 
valeur donnée z de la variable X. En d’autres termes, le modèle prend 
la décision suivante 


y=i1 si. PY—=112 >P(Y =21]»), 
y=2 si P(Y=2|2 >P(Y =1|). 


Pour le démontrer, calculons les probabilités a posteriori 
PF =Rkl|>x): 


_ … pri (z|k) 7 
PPS EC ners Se) 
11 en découle, compte tenu de (47), que P (Y = 1 |zx) > P (Y — 
— 2 |z) quand zE A, et P(Y=2|2z) >P(Y =1]|z) quand 
z E A2. | | 
D Pour un nombre arbitraire NV de classes, les probabilités a pos- 
teriori P (Y = k | x) sont définies par la formule ; 


P(Y=kIr=- PCI (4=1,...,N)%. 
> Pif(z|i 


i= { | 
I1 en découle que pour le modèle optimal fonctionnant conformé- 
ment au critère du maximum des probabilités a posteriori les domai- 
nes A1, ..., AY sont définis par la formule Se 


A={rimax pf(elh)= milk} (=1,...,N). (49) 


Ce modèle réalise évidemment le principe du maximum de la proba- 
bilité p d’une reconnaissance juste, définie par la formule (45), étant 
donné que cette formule (45) peut être mise sous la forme 


p= | max {paf (z | R)} dr. (50) 


Exemple 8. Considérons le cas de la reconnaissance des formes de 
deux classes pour des distributions conditionnelles normales f (x | 1) et f (x 12): 
1 LES il 
a _—— — K — — 1, 2), 
TEE ane exp {fm rl (ma) (et. 2 


*) Pour établir cette formule (et aussi la précédente), il suffit de remplacer, 
dans Ja formule du produit des densités de probabilité (4.23), l'expression de la 
densité de probabilité f, (y) de la variable aléatoire discrète Y, puis de calculer 
f, (x) d'aprés la formule (4.8) ct de porter les expressions trouvées de f (x, y) 
et f, (x) dans (4.17). UE 


27% 
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Il est clair que les calculs seront plus simples si, au lieu de prendre le rapport 
de vraisemblance z = f (x | 1)/f (x | 2), on prend le double du logarithme de ce 
rapport et si l'on rejette, dans l'expression obtenue, tous les termes qui ne dé- 
pendent pas de x. Nous obtenons alors la fonction 6 (z) sous la forme d'un poly- 
nôme du second degré: 


O(2)=2T(K5t—Kil)z+2(mTKr—miKs!)z. 
Dans ce cas, le seuil c est défini par la formule 


9 (P2\—91n P24in LA 
e=0 | Fe) =2in P1 A EE 


Dans le cas particulier où les matrices de variances-covariances coïncident 
K; = K, = K, les expressions pour 8 (2) et c deviennent 


B(z)=2(mT—m]T) K-1x, 


+ mTKTim—miK; tm. 


Pe P2 Ty-1 Ty 
c=0 (<.) =2 Mes re KT mi—m, Kms. 
Dans ce cas, la frontière entre les domaines 4, et À. représente un hyperplan. 
C'est pourquoi la règle décisionnelle suivant laquelle fonctionne le modèle est 
appelée linéaire. 

Trouvons maintenant les probabilités conditionnelles des erreurs: la pro- 
babilité «. de décider que la forme appartient à la première classe alors qu'elle 
appartient à la seconde et la probabilité &, de décider que la forme appartient 
à la seconde classe, alors qu’elle appartient à la première. Pour cela, trouvons 
la distribution conditionnelle de la variable aléatoire 


f(X 11) Al 
V=2ln In —— 

f (X 12) | Ke 
Etant donné que V représente une fonction linéaire du vecteur X normalement 
distribué, la distribution conditionnelle de V est normale. C'est pourquoi il 


-suffit de calculer les espérances mathématiques et les variances conditionnelles 
.de la variable V. Nous trouvons alors à partir de la formule (3.11) 


= M[V11]=2(mi—m}) K-im,, 


Ty -1 T y —1 = 
— mi y m+moks ma=2(mi—mi) K 1X. 


Ue=M[V12]=2(m]—mÎl) K-ims 


Nous obtenons les variances conditionnelles de la variable V à l’aide des formu- 
les (3.50). Comme le vecteur X a la même matrice de variances-covariances pour 
formes des deux classes, les variances conditionnelles de la variable V coinci- 
.aent : 


D=D(V|1]=D{V12]=4(mT—mT) K-1KK-1(m;—m,)= 
= 4 (ml—m?) KI (my— Mo) 


‘Nous trouvons alors, d’après la formule (3.92), pour la probabilité qu'une va- 
riable aléatoire normalement distribuée appartienne à un intervalle donné, que 


1 00 —(7—Hs)? h 

2D CH 
ms |. d=—© | H } 
5 V2xD 2 y D /° 


1 € —(v—jh) ; 
Le = — | r Éd du=——©® (=). 


V 21D 2 4) 
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La probabilité globale de l'erreur est égale à q = pi&e1 + Pa@2 et la probabilité 
d’une décision juste à p = 4 — q = À — py&ey — Pe@s. La possibilité de déter- 
miner exactement les probabilités des erreurs décisionnelles de ces deux espèces 
dans le cas d’une distribution normale du vecteur X est un avantage important 
des règles décisionnelles linéaires. 


&.3. Modèles stochastiques de reconnaissance. Passons maintenant 
aux modèles stochastiques de reconnaissance. 


> La distribution conditionnelle des probabilités Ô (y | x) 
= 1,..., N) pour une valeur donnée z de la variable X, suivant 
laquelle le modèle stochastique de reconnaissance détermine l'estima- 


tion Ÿ du numéro Ÿ de la classe des formes, est appelée fonction de 
décision ou règle randomisée de décision du modèle de reconnaissance *). 

Les probabilités conditionnelles des décisions erronées et justes 
de diverses espèces sont déterminées pour le modèle stochastique de 
reconnaissance par la formule 


aœu= (512 f(z11) à (k, 1=1,...,N). (51) 


Conformément à la formule des probabilités totales (1.14), la proba- 
bilité d'une décision juste est égale à 


N N 
p= D pra = D pr | 8(k12) f(x |) dr 
Ron 


k=1 


N 
| Paf (&| #) Ô(k | x) dr. (52) 
Rh=1 


Etant donné que 
N 
OZSô(kIz)S1, D ô(k|z)—1 
k=1 


pour tout x, alors la fonction à intégrer dans (52) représente la valeur 

moyenne pondérée des variables p,f (x | k) (k— 1,..., N), quine 

peut être supérieure à max {p4f (x | k)}. C'est pourquoi aucun modèle 
k 


stochastique de reconnaissance ne peut être meilleur que le modèle 
déterministe optimal pour lequel, conformément à (50), nous avons 


p= | max {paf (x | #)} az. 
k 


Compte tenu de la définition (49) des domaines A,, nous pouvons 
conclure que la probabilité d’une décision juste p atteint son maxi- 
mum si, et seulement, si Ô (4 | x) = 1 pour x € 4, et Ô (k | x) = 0 
pour æxËé A, (k = 1,..., N), autrement dit pour le modèle déter- 
ministe optimal. < 


*) Du mot anglais random, aléatoire. 
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Ainsi, Le modèle déterministe optimal est optimal parmi tous les 
modèles possibles, aussi bien dsterministes que stochastiques. 

Le théorème que nous avons démontré n’est valable évidemment 
que dans le cas où, lors de l’élaboration du modèle de reconnaissance, 
on connaît exactement toutes les probabilités p,,. .., p, des classes 
et les densités de probabilité conditionnelles f (x | 1, . .., f (x | W) 
de la variable À. Si le modèle de reconnaissance est élaboré pour le 
cas d'une information incomplète relative à p, et f(x |k) (4 = 
= 1,...,N), qui ne sont pas connues intégralement, alors le modèle 
stochastique peut s'avérer meilleur que tous les modèles déterministes 
réalisables, étant donné que dans ce cas le modèle déterministe opti- 
mal est inconnu et ne peut être réalisé. 

&.4. Apprentissage des modèles de reconnaissance. Pour élaborer 
le modéle de reconnaissance dans le cas où les probabilités p, et les 
densités de probabilité f (x | k) (k — 1,..., N°) dépendent d’un para- 
mètre inconnu 8 (dans le cas général, d'un vecteur de dimensions fi- 
nies) ou sont en général inconnues, on doit les estimer à partir des 
résultats des épreuves. 

Si l'on peut obtenir des estimations suffisamment bonnes du 
paramètre inconnu 6 directement à partir de la valeur observée z du 
vecteur À (or, cela n’est possible que dans le cas où la dimension du 
vecteur 8 est très inférieure à la dimension du vecteur ZX), alors on 
peut inclure dans le modèle de reconnaissance l’ajustement des esti- 
mations correspondantes des probabilités p, et des densités de pro- 
babilité f (x | Æ) et l'utilisation de ces estimations dans les règles 
décisionnelles trouvées. | 

Toutefois, en règle générale, il est impossible d'obtenir de bonnes 
estimations ‘lu paramètre 8 ou directement des quantités p, et des-fonc- 
tions f (x | k) à partir des résultats des observations de la variable X. 
En pareil cas se pose le problème de |' apprentissage du modèle de 
reconnaissance par l'introduction dans ce modèle d'une information 
complémentaire, indispensable à l'élaboration des estimations des 
variables inconnues ou même directement des frontières entre les 
domaines A,, ..., AN. Dans ce cas, on inclut dans le modèle un 
algorithme de son apprentissage, c'est-à-dire de l'élaboration des esti- 
mations indispensables pendant l'étape d'apprentissage. Si, au cours 
de l'apprentissage du modèle, on lui fournit üniquement les réalisa- 
tions de la variable aléatoire X (signal d'entrée), alors le modéle est 
appelé rnodèle d'auto-apprentissage. Si, au contraire, outre les réalisa- 
tions de la variable À, on introduit également dans le modèle au 
cours de l'apprentissage une information relative à l'appartenance 
de classes des formes correspondantes à chaque réalisation de la 
variable À ou tout autre sorte. d’information qui peut être utilisée 
pour l'estimation des caractéristiques inconnues, alors le modèle 
est appelé modèle d'apprentissage. Dans ce cas, on appelle moniteur 
la source de l'information complémentaire, indépendamment du fait 
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qu'elle représente une personne ou un dispositif automatique de 
reconnaissance. Si le moniteur détermine sens erreur la classe de la 
forme observée, il est appelé moniteur idéal. Si le moniteur peut se 
tromper, il est appelé moniteur réel [75-80]. 

Pour l’estimation des paramètres ou des fonctions inconnus, on 
peut utiliser, au cours de l'apprentissage, différentes méthodes [25]. 
En particulier, l’une de ces méthodes les plus efficaces est celle des 
approximations stochastiques ($$ 7.3 et 7.4). 

&.5. Elaboration des modèles de reconnaissance sans information 
relative aux probabilités a priori. Nous avons supposé jusque-là 
que les probabilités a priori des différentes classes de formes p,, ... 

.., p\ étaient connues. Toutefois, dans de nombreux cas, elles ne 
sont pas connues et, même, peuvent ne pas exister si les formes des 
différentes classes n'apparaissent pas de façon aléatoire lors de 
l'application du modèle de reconnaissance. Dans tous les cas de ce 
genre, on considérera que le modèle optimal de reconnaissance des 
formes de deux classes est le modèle qui réalise le minimum dela 
probabilité d'erreurs d’une certaine espèce pour une valeur fixée de 
la probabilité d'erreur de l’autre espèce. La condition de minimisa- 
tion de la probabilité d'erreur d’une certaine espèce pour une valeur 
fixée de la probabilité d'erreur de l’autre espèce est habituelle- 
ment appelée critère de Neyman-Pearson. 

D Pour trouver la règle décisionnelle du modèle optimal de 
reconnaissance à l’aide du critère de Neyman-Pearson, on peut utili- 
ser la méthode des multiplicateurs indéterminés de Lagrange. Con- 
formément à cette methode, pour trouver le minimum conditionnel de 
la probabilité &., pour une valeur donnée de la probabilité &œu, il 
faut tout d'abord trouver le minimum de la quantité g'— @ei + 
+ ÀAG12, où À est le multiplicateur de Lagrange, puis déterminer À de 
sorte que la probabilité &,, ait une valeur donnée. En vertu de (44), 
la quantité q° pour le modèle déterministe de reconnaissance s’expri- 
me par la formule 


nl f(z11)4+1 | f(&1 2) dr. 
A2 A! 
Comme À, = 4, et que 
| f(alt)dr=1— | f(clt)de, 


As A1 
nous avons 


g’=1— | [f(x 1)—Àf (zx | 2)] az. 
A1 


Cela nous permet de trouver, exactement de la même façon qu’au 
point 4.2, les domaines optimaux 4, et À, qui, dans ce cas, dépen- 
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dent du paramètre inconnu À: 
A ={:f(@11 —M(&12 >0}, 
A, = {z:f(z|1) — Af(z]2) < 0}. 


En comparant ces formules à (47), nous pouvons conclure que la rè- 
gle optimale de décision ne diffère de celle que nous avons trouvée au 
point 4.2 que par le fait que dans l’expression du seuil c, au lieu du 
rapport des probabilités p,/p,, figure la quantité À, c— 6 (À). Cette 
formule exprime c en fonction de À, que l’on détermine à partir de la 
condition que la probabilité &;, ait une valeur donnée. Dans les 
problèmes pratiques, on réussit souvent à déterminer directement le 
seuil c à partir de la condition d'égalité de la probabilité &,, à un 
nombre donné, ce qui permet d'éviter le calcul intermédiaire de À. 


Exemple 9. Dans les conditions de l'exemple 8, le critère de Neyman- 
Pearson conduit, pour la détermination du seuil c, à l'équation 
1 | { LT OT) pi 
——_———————— exp —— (x — Mo) K3 (&— ms) } dT = Us, 
r A 
VONT R2l 
où le domaine d'intégration À, (c) est défini par la formule 


Aitc)={z: 2T(K5t— Ki t)z+2(mIRTi—miRrl)z > c). 


On peus résoudre, dans le cas général, l'équation pou c en calculant l'intégrale 
par la méthode de simulation aléatoire pour les différentes valeurs de c. Dans le 
cas particulier où les matrices de variances-covariances conditionnelles du 
vecteur X sont identiques, X, = X, = X, c'est-à-dire dans le cas d’une règle 
décisionnelle linéaire, l'équation pour le seuil c devient, en vertu des résultats 
de l'exemple 4: 


Passons maintenant aux modèles stochastiques de reconnaissance 
assurant une probabilité donnée &;.. Démontrons qu'aucun modèle 
stochastique pour une probabilité donnée d'erreur de première espè- 
ce &«;, ne peut avoir une probabilité d'erreur de seconde espèce &4 
inférieure à celle que l’on obtient par le modèle déterministe opti- 
mal, basé sur le critère de Neyman-Pearson. 

> En effet, dans ce cas, nous avons 


fotinfel2ar= (| f(712) dr= cu (53) 
A1 

Où A, = {z:f(z |1) > Àf (x | 2)}. La probabilité d'erreur de seconde 

espèce pour le modèle déterministe de Neyman-Pearson est détermi- 

née par la formule 


Los = | f(x | 1) dx, 


A3 
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et pour le modèle stochastique, par la formule 
a! = | 5(212) f(x 1) dr. 
Nous avons par conséquent 


Li — nu = CCI t)dz— | f(c|1)dr- 


As 
= {621 faIDds- | 1-6(2121$(&11 27 
A A3 
= | S(212f(&11)4r— | 6(1]x)f(x|1)dr- 
A1 A 


Nous en tirons alors, en ayant en vue que j (x | 1) = Àf (x | 2) pour 
zEA,etf(xz|1) << Àf (x | 2) pour x € À, l'inégalité suvante: 


an—au>à {| 6(212) f(x 12) dr 


A] 


—f541df@12 d)=1{| 6212 f(&12a7+ 
A A1 


a 
L 2 


+ 84IDf(&I2)dr— | 8(412)f(x12 dr} = 


A] 


=A{lrelD af 64e rte 12) de). 


Or, les deux intégrales figurant entre les accolades sont égales, con- 
formément à (53), à la même probabilité «,.. Par conséquent, a > 
>», et le signe d'égalité ne peut être atteint que si, et seulement si, 
ô (4 1x) = 1 quand x € À, et Ô (1 | x) = 0, quand zx € À4., c'est-à- 
dire pour le modèle déterministe optimal. 

Ainsi, le modèle déterministe optimal de Neyman-Pearson est opti- 
mal parmi tous les modèles, aussi bien déterministes que stochastiques. 

De même qu’au point 4.3 nous avons démontré ce théorème. 
uniquement pour le cas où les densités de probabilité f (x | 1) et 
f (x | 2) sont entièrement connues. Si elles ne sont pas connues ou si 
elles dépendent de certains paramètres inconnus, alors le modèle 
optimal de Neyman-Pearson ne peut être réalisé. Dans de tels cas, le 
modèle stochastique peut s'avérer meilleur que tous les modèles 
déterministes. 

4.6. Vérification des hypothèses. Les problèmes de reconnaissance 
sont proches des problèmes de vérification des hypothèses [49]. Le 
principal problème de la théorie de la vérification des hypothèses 
consiste à adopter ou à rejeter, à partir des résultats d'observations 
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d'une variable aléatoire X dont la densité de probabilité f (x | 6) 
dépend du paramètre inconnu 6, une hypothèse déterminée relative 
à la valeur de 6. Si l'hypothèse consiste à affirmer que 6 a une valeur 
déterminée 6, et que f (x | 8) ne dépend d'aucun autre paramètre, 
alors l'hypothèse est dite simple. Si l'hypothèse consiste à affirmer 
que 6 appartient à un certain ensemble, alors elle est appelée com- 
plexe. En particulier, l'hypothèse relative au fait que certaines coor- 
données du paramètre vectoriel 6 prennent des valeurs données, alors 
que les autres coordonnées sont inconnues, sera une hypothèse com- 
plexe car elle est équivalente à l’hypothèse que 6 appartient à l’en- 
semble de tous les vecteurs dont certaines coordonnées correspondan- 
tes ont des valeurs données. 

Le problème de la vérification de l'hypothèse simple F7, consistant 
à affirmer que 0 = 6, sous la condition que 6 peut prendre une autre 
valeur déterminée 6, (hypothèse concurrente H;) représente évidem- 
ment un problème de reconnaissance des formes de deux classes pour 


fl =f(&16), f(12) = f (166) *). 


Remarquons que dans ce problème les probabilités a priori p; et Pe 
n'existent pas, étant donné que 6 est une variable non aléatoire, de 
sorte que les égalités 60 — 6, et 6 — 6, ne sont pas des événements. 

La règle décisionnelle pour laquelle la probabilité &,. de rejeter 
l'hypothèse H,, alors qu'elle est vraie, admet une valeur donnée 
E, &» — €, est appelée, en théorie de la vérification des hypothèses, 
règle de niveau & **). 

La règle décisionnelle d'un niveau donné € pour laquelle la 
probabilité &,, de rejeter l'hypothèse F,, alors qu'elle est fausse, est 
maximale, est appelée règle décisionnelle la plus puissante de niveau € 
pour l'hypothèse H, par rapport à l'hypothèse H,. Si une même règle 
décisionnelle s'avère la plus puissante pour toutes les valeurs possi- 
bles de 6, (pour toutes les hypothèses concurrentes }7,), alors elle est 
appelée règle décisionnelle uniformément la plus puissante de niveau e 
pour l'hypothèse H, par rapport à des ensembles des hypothèses admissi- 
bles. 

La théorie moderne de la vérification des hypotheses a été fondée 
par les travaux de Neyman et Pearson (67, 68], qui ont résolu les 
premiers le problème de la recherche de la règle décisionnelle uni- 
formément la plus puissante de niveau donné. C’est précisément la 


*) Nous rapportons les valeurs de la variable observée X, correspondant à 
la valeur qui nous intéresse 6, du paramètre 6 (c'est-à-dire au cas où l'hypothèse 
H, est vraie), à la seconde classe de formes, pour que la position du problème 
de vérification des hypothèses coïncide avec la position du problème de recon- 
naissance que nous avons résolu plus haut. 

*+) En théorie de vérification des hypothèses, la règle décisionnelle déter- 
ministe, conformément à laquelle l'hypothèse Æ, est adoptée ou rejetée, est 
appelée critère ou test. Nous préférons le terme plus général et plus moderne de 
règle décisionnelle. 
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raison pour laquelle le critère du. maximum de la probabilité &,; 
(du minimum de &.,) pour une valeur donnée de la probabilité &ja 
est appelé critère de Neyman-Pearson. 

Il est clair que la règle décisionnelle du modèle optimal de recon- 
naissance des formes de deux classes, basée sur le critère de Neyman- 
Pearson, est la règle décisionnelle la plus puissante de niveau & — 
= &j+, pour l'hypothèse A, par rapport à l'hypothèse Æ,. Le cas où 
existe une règle décisionnelle uniformément la plus puissante se ren- 
contre très rarement. 


Exem P lo 10. Le modèle optimal de reconnaissance, que l’on a trouvé 
dans l'exemple 9, résout le pote de la vérification de l'hypothèse relative 
au fait que l'espérance mathématique inconnue mr et la matrice de variances- 
covariances À du vecteur aléatoire X sont égales respectivement à m. et K: 
{pour l'hypothèse concurrente m = m,, K = KX,). La règle décisionnelle de ce 
modèle est la règle uniformément la plus puissante de niveau e = «&,. Confor- 
mément à cette règle, l'hypothèse m — m2, À = K, est adoptée si Ÿ (2) < c, 
et rejetée si 6 (z) > c. Quand les matrices de variances-covariances X, et K: 
sont égales, K, — K, = K, la règle décisionnelle linéaire optimale trouvée 
dans l’exemple 5 est la règle la plus puissante de niveau 8 — &,, pour l’hypothè- 
se m = m,. par rapport à l'hypothèse m — m1. 


s 


L 
Si le modèle de reconnaissance est élaboré dans le cas des densités de proba- 
bilité f (x | k) inconnues ou de forme connue mais comportant un paramètre 
inconnu 6, alors, de même que dans le cas des modèles du point 4.2, se pose 
le pop de l'apprentissage du modèle dont nous avons parlé à la fin du 
point 4.4. 


4.7. Modèles séquentiels de reconnaissance. Dans la théorie que 
nous avons exposée — l’élaboration des modèles de reconnaissan- 
ce — le vecteur À peut représenter soit une variable aléatoire obser- 
vée une fois, soit un esemble de résultats de x observations successi- 
ves d’un certain vecteur aléatoire U de dimensions inférieures. Dans 
ce dernier cas, nous avons À = [UT,..., UTIT, où U,,..., U, 
sont les résultats des observations du vecteur Ü, et les modeles 
étudiés de reconnaissance n'élaborent la solution qu'après que toutes 
les nr observations aient été réalisées. Toutefois, on peut élaborer 
également un modèle de reconnaissance de deux classes de formes qui, 
après chaque observation, ou bien prend une décision déterminée 
relativement à la classe de la forme observée, ou bien prend la déci- 
sion d'effectuer encore une observation. Cette méthode de résolution 
des problèmes de reconnaissance, appelée analyse séquentielle, a été 
élaborée par Wald [14] *). 

Soient fx (x | 1) et fr (x | 2) les densités de probabilités condition- 
nelles du vecteur À pour les formes des deux classes pour les k pre- 
mières observations (4 = 1, 2, . ..). Dans ce cas, la dimension du 
vecteur À est évidemment égale à kp, où p est la dimension du vec- 
teur U. Soit 6,4 (2), z=fx (x | 1)/f, (x | 2), la fonction discriminante 


*) On trouvera dans [124] un exposé de la théorie moderne de l'analyse 
séquentielle, dont les méthodes de Wald découlent en tant que cas particulier. 
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élaborée pour les À premières observations. La méthode d'analyse 
séquentielle consiste, après avoir fixé les probabilités conditionnel- 
les d'erreurs &+ et &21, à déterminer à chaque pas deux seuils, c,, et 
Con, tels que cir << Cor (k = 1,2,...). Si après la k-ième observation: 


0% (z) > Cor, alors on adopte y — 1. Si 04 (2) << c1x, alors on adopte 


y = 2. Si, par contre, cn << 0» (2) << cor, alors on effectue une ob- 
servation supplémentaire, la (4 + 1)-ième, du vecteur U *). Dans 
ce cas, il est clair que le modèle prendra la forme de la seconde clas- 
se pour une forme de la première si, pour la forme de la seconde clas- 
se, on obtient 6, (z) > cer, et il prendra la forme de la première classe 
pour une forme de la seconde si, pour la forme de la première classe, 
on obtient 6, (z) << c. Par conséquent, les probabilités condition- 
nelles d'erreurs de deux espèces s'expriment en fonction des seuils 
Cin €t Cox par les formules 


me | f(l2dr, au= | f(wlt)dz (64 
NON OZ(:)-<C;R 


Pour des probabilités données &,, et &:,, ces relations servent d'équa- 
tions pour déterminer des seuils c;» et c... Dans le cas général, ces 
équations peuvent être résolues par des méthodes approchées en: 
calculant les intégrales pour diverses valeurs de c;4 et c.x par la 
méthode de simulation aléatoire ($ 8.4). 

Le nombre des observations après lesquelles le modèle séquentiel 
de reconnaissance prend une décision déterminée relative à la classe 
de la forme est une variable aléatoire. Montrons que pour toutes 
probabilités &.. et &«+, avec lesquelles le problème de reconnaissance 
est résolu par le modèle optimal de Neyman-Pearson pour un nombre 
fini quelconque d'observations n, l'espérance mathématique du 
nombre d'observations nécessaires à la reconnaissanee séquentielle 
avec les mêmes probabilités & et &, est toujours inférieure à n. 

> Supposons que pour x observations du vecteur U, le modèle 
optimal de Neyman-Pearson résolve de problème de reconnaissance 
avec des probabilités d'erreurs &;. et &,. Nous avons alors 


fn(ælDdr=am | fntalt)a=cs 


6,(z)>c 0,(:)<c 


Les seuils c:, et c>, sont déterminés au n-ième pas de la reconnaissan- 
ce séquentielle avec les mêmes probabilités d’ereurs &;, et &e+y par 


*) Dans ce cas, évidemment, la forme présentée pour la reconnaissance ne 
doit pas être modifiée au cours de toute la durée des observations. En d’autres 
termes. la variable aléatoire U, que l’on observe de nombreuses fois, doit être 
caractérisée par une même forme (avoir la même distribution) durant toutes les 
observations. Dans le cas de la vérification des hypothèses simples, toutes les 
observations du vecteur U doivent être effectuées pour une même valeur du 
paramètre inconnu 6. 
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les équations (54) pour À — n. En comparant ces dernières égalités 
avec (54) pour 4 — n, nous obtenons c;,, = cn —= c. Cela fait que le 
modèle de reconnaissance séquentiel prendra, avec une probabilité 1 
une décision déterminée après un nombre d'observations non supé- 
rieur à n (l'événement 6, (z) = c est pratiquement impossible; 
c'est pourquoi la (n7 + 1)-ième observation ne sera pas nécessaire.). 
Toutefois, le modèle séquentiel peut également prendre une décision 
déterminée plus tôt, après un nombre 4 << n d'observations, et la 
probabilité de cet événement n'est pas nulle. Par conséquent, l’es- 
pérance mathématique du nombre aléatoire d'observations, pour le- 
quel le modèle séquentiel de reconnaissance prend une décision 
déterminée, est inférieure à n. 


Exemple 11. Supposons que, dans les conditions de l’exemple 8, le 
vecteur X représente l’ensemble des résultats de 4 observations indépendantes 


du vecteur aléatoire U, X = [UT ... UT]T. Dans ce cas, l'expression de 
l'exemple 8 pour la fonction discriminante devient 


LE 
(= D Lu? (L5 —Li')u;+(hiLy —hoLz ")ul, 
im! 


Où 1, k, sont les espérances mathématiques conditionnelles, et L;, L, les 
matrices de variances-covariances conditionnelles du vecteur U pour les formes 
des deux classes. 

Dans le cas particulier où L, = L, = L, la formule de 6, (:) devient 


k 
6 (2)= 9) (4Ÿ—h5) Liu 
i=1 


et les formules pour les espérances mathématiques et les variances condition- 
nelles de la variable 


k 
V= 0x (2)=pD (47 —h5) LIU; 
1m! 
s'écrivent 
Mar k(RT—hT) Li, Ban =k(RkT—h7) Lot, 
Dp=k(hT—hT) L1(hi—ha). 


En posant, pour des raisons de concision, (hT—h7) Li = hi, (1 — h1) Lis = 
= ho, nous aurons 

bar = KM Horn = Ka D = KE (hi — ha). 
Les équations (54) pour déterminer les seuils c;, et c, deviendront dans ce cas 


khy —Cih 1 Coh —kÀ 1 
D —— = — Ao 2 — = — — 2 
(F k =) 2  * (F7 k mu) A0 


En sppeans respectivement v. et v. les arguments de Ia fonction de Laplace 
pour lesquels ces égalités sont vérifiées, nous obtenons 


k= ka vi Who Ch = ke + Va VE (hi — he) 
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Cela donne par conséquent 


Coh—C1k = (Vi + Va) Vk (Ai— eo) —k (A1 — ho). 
Il en découle que le nombre d'observations nr pour lequel cn < con est défini 
par l'inégalité 
(V1 + V2)? 
Le plus petit nombre entier nr (toujours positif du fait que À >> Àe) vérifiant 
cette condition sera la valeur maximale Ph du nombre aléatoire d'observa- 
tions, nécessaire pour que le modèle séquentiel de reconnaissance prenne une 


décision déterminée. L'espérance mathématique du nombre d'observations pour 
le modèle séquentiel de reconnaissance sera toujours inférieure à n. 


On peut considérer que l'analyse séquentielle est le début de la 
théorie du contrôle des expériences. Dans l'analyse séquentielle de 
Wald, le contrôle réside dans le fait qu’en fonction des résultats des 
épreuves effectuées, on décide à chaque pas de continuer les épreuves 
ou de les arrêter et d'adopter une décision déterminée relative à l'ap- 
partenance des résultats des observations à une classe bien définie. 
Dans les problèmes plus généraux et plus complexes de contrôle, on 
doit inclure également une décision relative à la nature mème des 
épreuves expérimentales que l’on doit effectuer en fonction des 
résultats du traitement des épreuves déjà réalisées. C’est dans ce plan- 
là que la théorie du contrôle des expériences continue à se développer. 
La généralisation des méthodes d'analyse séquentielle s’insert dans. 
le cadre de la théorie statistique des décisions, dont la base a égale- 
ment été posée par Wald [15]. 
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5.1. Problème de prise de décisions. Tous les problèmes résolus- 
par des modèles de destination quelconque peuvent être considérés 
comme des problèmes de prise de décisions. Par exemple, le modèle de 
régression qui, à partir d’une valeur donnée de Ja variable zx, élabore 
une estimation de la variable Ÿ, c'est-à-dire prend une décision 
relative à la valeur que l’on doit affecter à la variable Y. Le modèle 
de reconnaissance détermine, à partir de la valeur observée x de la 
variable X, à quelle classe on doit affecter la forme correspondant 
à cette valeur x, autrement dit il prend une décision relative à l’appar- 
tenance de classe de la forme observée. Exactement de la même 
façon, tout problème d'estimation peut être considéré comme un 
problème de décision relatif au fait suivant : quelles valeurs doit-on 
assigner aux caractéristiques statistiques inconnues, à partir des 
résultats d'observations dont on dispose? Ces considérations ont 
amené Wald à élaborer les bases de la théorie générale des décisions 
statistiques [15]. Par la suite, cette théorie a commencé à se dévelop- 
per en direction de l'élaboration des méthodes étudiant le bien- 
fondé des décisions adoptées par les hommes dans tous les domaines 
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de leur activité, c'est-à-dire des méthodes d'élaboration des modèles de 
processus de justification et d'adoption de toutes sortes de décisions. 
Aujourd'hui. la théorie de la décision se developpe intensivement 
et constitue l'une des branches les plus importantes de la théorie 
générale du contrôle [4, 21, 52, 61, 80]. 

Dans les problèmes les plus simples, les décisions sont prises en 
présence d'une information complète sur les conséquences possibles 
des diverses décisions. Par exemple, lors de l’élaboration d’un modèle 
de régression dans le cas où la distribution conjointe des variables X 
et Ÿ est entièrement connue, on connaît intégralement la distribution 
des erreurs de modèles (les écarts à la régression). Lors de l’élabo- 
ration d’un modèle de reconnaissance dans le cas où les densités de 
probabilité conditionnelles f (x | 4) (k = 1, ..., NV) sont connues, 
on peut calculer les probabilités des erreurs de toutes les espèces, et, 
si l’on connaît également les probabilités a priori de réalisation des 
formes appartenant aux différentes classes p,, . .., px, on connaît 
également la probabilité globale de l’erreur g. 

Toutefois, dans la majorité des problèmes pratiques, les décisions 
doivent être prises alors que l’on dispose d’une information incomplé- 
te. Par exemple, lors de l'élaboration d’un modèle de régression, 
dans le cas où la distribution des variables X et Ÿ n’est pas connue 
ou dépend de certains paramètres inconnus, la distribution des erreurs 
du modèle reste, dans telle ou telle mesure, indéterminée. Exacte- 
ment de la même façon, lors de l’élaboration d'un modèle de recon- 
naissance, dans le cas où p,4 et f (x | k) (k = 1, ..., N) ne sont pas 
connus ou dépendent de certains paramètres inconnus (lors de la 
vérification des hypothèses complexes), il n’est pas possible de cal- 
culer exactement les probabilités des erreurs de différentes espèces. 

Il existe encore plus d’indétermination dans les problèmes de prise 
de décisions par des individus participant aux contrôles. Dans de tels 
problèmes, les conséquences possibles des diverses décisions sont, 
dans la majorité des cas, difficiles et parfois impossibles à évaluer. 
La décision doit être prise dans des conditions d'incertitude. L'appro- 
che scientifique consiste alors à déterminer les variantes les plus 
raisonnables des décisions, liées au moindre risque d'erreurs et de 
pertes. Nous parlons ici des décisions les plus raisonnables, mais non 
des décisions optimales car, en règle générale, les décisions doivent 
être estimées de différents points de vue. Les décisions optimales d'un 
certain point de vue peuvent s'avérer mauvaises d’un autre point de 
vue. C'est pourquoi le choix d'une décision déterminée est pratique- 
ment toujours lié à la nécessité d’un compromis entre des exigences 
différentes, parfois même contradictoires. 

9.2. Risque et fonction de coût. Pour élaborer la théorie de la 
décision, il est avant tout nécessaire d'introduire une certaine mesure 
de la qualité des décisions prises. Soit x l’ensemble de toutes les 
variables caractérisant les données initiales servant à la prise de 
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décision (autrement dit, toute l’information dont nous disposons pour 
prendre la décision, le signal d'entrée du modèle de décision), z l’en- 
semble de toutes les variables caractérisant la décision (le signal de 
sortie du modèle de décision). On peut caractériser la qualité de 
décision par une fonction de deux variables r (z | x), définissant les 
coûts (ou les pertes) auxquels conduit la décision z pour un z donné. 
Cette fonction est habituellement appelée risque lié à la décision z 
pour un zx donné (le coût de la décision z pour un x donné) *). 


Exemple 12. Dans le cas de l'estimation de la régression par minimi- 
sation de l'erreur quadratique moyenne pour un x donné, [a qualite du modèle 
est caractérisée par le carre du module de l'erreur | 2 — Ÿ |?. En déterminant 
le risque par la formule 


rGla=M( Ya | 12—yl*f( 1 dr, 


on peut ramener le problème du point 9.2.1 à un problème de minimisation du 


Tisque. 

Exemple 13. Dans le cas de la reconnaissance par le principe du maxi- 
mum de la probabilité a posteriori, on peut associer à une décision juste des 
coûts nuls, et à une décision erronée de chaque espèce, des coûts égaux à 1. En 
déterminant de cette manière la fonction de coût 


L(y J={, si 24, 


Si 244) 
on peut définir le risque par la formule 
rGla=MUO, 21e PEUR 
>) Pmiflrli 
a | 


Le problème de l’élaboration du modèle déterministe optimal de reconnaissance 
se ramène alors à un problème de minimisation du risque. 

Exemple 14. Le problème de l'estimation du paramètre inconnu 6 
par la méthode du maximum de vraisemblance du paragraphe 7.2 se ramène à 
un problème de minimisation du risque défini par la formule 


r(clu)=ro—g(ul:2), 
Où g(u | 6) est la fonction de vraisemblance et r, une constante arbitraire. 


Les procédés de définition du risque dans les exemples 12 et 13 re- 
présentent des cas particuliers du procédé général de définition du 
risque dans les problèmes d'estimation des variables aléatoires. Ce 
procédé général consiste à estimer, pour toute valeur possible y, z 
de la variable aléatoire }° et de son estimation Z, les pertes subies 


*) On introduit souvent, au lieu du risque, l’utilité de la décision = pour 
un z donné, une fonction u (: | x) caractérisant le gain auquel conduit la déci- 
sion = pour un x donné. Toutefois, du point de vue mathématique, cela revient 
au même, car, pour une utilité donnée u (2 | r) de la décision, il est toujours 
possible de déterminer le risque correspondant en posant r (2| x) — ry — 
— u (:| 7), où r, est un nombre arbitraire, et, de la sorte. ramener le problème 
de la maximisation de l'utilité au problème de la minimisation du risque. 
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par la valeur d’une certaine fonction Z (y, z). Cette fonction est 
appelée fonction de coût. Pour une fonction de coût donnée, le risque 
est défini comme l’espérance mathématique conditionnelle de la 
fonction de coût pour des valeurs données de z et z: 


rGID= MU, da (1 2) f(y 12) dr. (55) 


Dans l'exemple 12, nous avons L (y, z) = | z — y |*, et dans l’exem- 
ple 13 Z (y, z) = 1 — 6,, (y, z = 1, ..., N). D'autres exemples de 
fonctions de coût utilisées dans les problèmes pratiques peuvent 
être L(y, 2) = 1 — exp {—k |z— y}, L(y, 2) = 1 — 1/41 + 
+ klz2— y, 1,2) = L;poury =i,z2-j(Gj=1,...,N). 
Si l'on adopte, en qualité de fonctions de coût, l'indicateur d'un 
certain ensemble L (y, z) — Â4çz) (y), alors le risque sera égal à la 
probabilité conditionnelle d’appartenance de la variable aléatoi- 
re Ÿ à cet ensemble pour des valeurs données de zx et z: 


rGla= (LoUwiulad= | iuID4=PTEAGR I. 


A(:) 


Dans ce cas, on adopte le plus souvent, en qualité d'ensemble À (2), 
le cercle d’un certain rayon a de centre au point z de l’espace des 
valeurs de la variable Ÿ (l'intervalle (2 — a, z + a) dans le cas 


d’une variable Ÿ scalaire). Le risque est alors déterminé par la 
formule 


r(21z2) =P(IY—-2]| >alrx). 


On peut formellement étendre également la formule (55) aux 
problèmes d'estimation du paramètre non aléatoire y — 6. Il suffit 
pour cela de porter dans (55) l'expression de la densité de probabilité 
conditionnelle f (y | x) tirée de la formule du produit des densités 


de probabilité (4.23) et d'utiliser la formule (4.8). Nous obtenons 
alors 


À fa (u) fi (x | y) dy 


Dans le cas d’une distribution uniforme de Ÿ dans un certain domai- 
ne PB, la fonction jf, (y) est constante dans le domaine B, de sorte 
que la formule précédente devient : 


VE, 2) fix y) dy 


r(z2|x) = 


AE Ship dy 
B 


Si la fonction f (x | y) est intégrable sur y dans tout l’espace des 
valeurs de la variable Ÿ, on peut alors formellement passer à la li- 
mite quand le domaine B s'étend indéfiniment et tend à coïncider 


28—0244 
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avec tout l’espace des valeurs de la variable ŸY. Nous obtenons, en 
définitive, 
JG, 2)f1( lv) dy 
\ fi CG | y) dy 


Cette formule limite n’a de sens que si y représente un paramètre 
non aléatoire, étant donné qu'aucune variable aléatoire ne peut 
être uniformément distribuée dans tout l’espace de ses valeurs. 
C'est pourquoi la formule (56) sert habituellement à déterminer le 
risque dans les problèmes d’estimation des paramètres non aléatoires 
(ou des paramètres par rapport auxquels on ne sait pas s'ils sont ou 
non aléatoires). En posant en particulier / (y, z) = ro — Ô (2 — y), 
nous obtenons r (2|x) = ro — c(x)f,(x |z), où on a noté c (x) 
la quantité inverse de l’intégrale figurant dans le dénominateur de la 
formule (56). Ainsi, en prenant, en qualité de la fonction de coût, la 
fonction Ô négative —6 (z — y), on peut ramener l'estimation des 
paramètres, d’après la méthode du maximum de vraisemblance, à 
celle de la minimisation du risque. Le terme constant r, et le facteur 
c (x) dépendant uniquement de la valeur x de la variable observée 
X ne jouent alors aucun rôle, et r, n’est introduit que pour ne pas 
obtenir formellement des valeurs négatives du risque (du point de 
vue mathématique, sans restreindre la généralité, on peut toujours 
adopter r, = 0, de même que nous l’avons fait dans l’exemple 14). 

Dans les problèmes de décision pour lesquels le but n'est pas 
l'élaboration de l’estimation d’une certaine variable aléatoire ou 
non aléatoire, on ne peut déterminer le risque à l’aide d’une fonction 
de coût comme cela se fait dans les problèmes d'estimation. C'est 
pourquoi, dans de tels problèmes, on doit déterminer directement le 
risque r (2 | x) comme une fonction des données initiales x et de la 
décision z. À l’heure actuelle, on élabore des méthodes de détermina- 
tion du risque (ou de l'utilité) pour différents problèmes de prise de 
décision en tenant compte des préférences individuelles et du caractè- 
re des individus qui doivent prendre ces décisions [61, 80]. 

Si le risque est une grandeur scalaire (le problème de décision est 
monocritère), alors on peut parler de décision optimale minimisant le 
risque. Toutefois, dans de nombreux problèmes pratiques, lors de 
l'élaboration des solutions, il faut être guidé par de nombreux critè- 
res qu'il est impossible à ramener à un critère scalaire unique (pro- 
blèmes de décisions multicritères). En pareils cas, le risque représente 
une fonction vectorielle et, rigoureusement parlant, il ne peut être 
question de solutions optimales. En effet, dans le cas général, il 
n'existe pas de solution pour laquelle toutes les coordonnées du risque 
vectoriel prennent simultanément les valeurs minimales possibles. 
On parle néanmoins en pratique de l’optimisation par rapport à un 
critère vectoriel, en sous-entendant l'élaboration d’une décision accep- 
table, suffisamment bonne du point de vue de tous les critères scalai- 


r(z| zx) — (56) 
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res. Îl existe diverses méthodes pour l'élaboration de telles décision: 
acceptables [29]. Elles incluent toutes, dans telle ou telle mesure, la 
définition des solutions optimales du point de vue de chaque critère 
scalaire pris séparément. C’est pourquoi nous allons considérer ici, 
succinctement, les principaux principes d'élaboration des modèles 
décisionnels, basés sur la minimisation de l'un quelconque des critè- 
res (risque scalaire). Les méthodes de conciliation de telles solutions 
optimales particulières et l’élaboration des décisions acceptables du 
point de vue de plusieurs critères nous entraïneraient trop loin, hors 
du cadre de ce livre, et nous n’allons pas les considérer. 

5.3. Solutions optimales. Considérons tout d’abord le problème 
de l'optimisation des solutions sans limiter la classe des solutions 
possibles. Nous allons devoir considérer non seulement les modèles 
décisionnels déterministes, mais aussi les modèles stochastiques, 
Un modèle stochastique élabore une décision représentant une réali- 
sation de la variable aléatoire Z, conformément à une certaine distri- 
bution. Cette distribution, dépendant évidemment d’un signal d'en. 
trée x comme d’un paramètre, est appelée fonction décisionnelle du 
modèle de décision stochastique. Comme nous n’allons étudier ici que 
les variables aléatoires de dimensions finies, on peut considérer que 
la fonction décisionnelle est définie par la densité de probabilité 
Ô (z|zx). Le modèle déterministe élaborant une décision donnée 
z = œ (x) représente un cas particulier du modèle stochastique quand 
ô (zx) = Ô (2 — p (x). 

Pour le modèle stochastique, le risque en tant que fonction de la 
décision aléatoire Z représente lui-même une variable aléatoire 
r (Z | x). C'est pourquoi on appelle modèle stochastique optimal le 
modèle qui minimise l'espérance mathématique du risque (c'est-à- 
dire le risque moyen) pour un z donné 


p(GIz)= M tr (Zlx)al= |r (cle) 6 (212) ds. (57) 


On voit directement que s'il existe une fonction z = (x) telle 
que le risque r (q (x) | x) prenne la valeur la plus petite possible 
r((x) 1x) = infr(z|zx) pour tout x, alors la solution déterministe 


z — (x) sera optimale parmi toutes les solutions possibles et aucun 

modèle stochastique ne pourra être meilleur que le modèle déterministe 

pour lequel z — @ (x) pour tout x. Nous parvenons à cette conclusion 

également par un raisonnement mathématique. Si r (q (x | x) — 

— infr(z|zx), alors r (z|zx)> r (œ (x) | x) pour tous zx et z, de sorte 
z 


que 
p (612) = Êr (p (a)1e) 8 (212) 2 = (p (x)1a) 


pour toute fonction décisionnelle 6 (z | x). 
28% 


436 MODELES STATISTIQUES, II [CH. 10 
A 


Comme l'espérance mathématique conditionnelle m, (x) — 
— MY | x] représente une fonction pour laquelle l'erreur quadrati- 
que moyenne 7 [|] z — YŸ |* | x] atteint sa borne inférieure exacte 
pour tous les x (point 3.2.4), 


M (im, (2) —Yf?]z] = inf M {|z—Y[°|z], 


il découle du théorème démontré qu'aucun modèle stochastique de 
prévision ou d'estimation de la variable aléatoire Y à partir des résultats 
d'observation x ne peut être meilleur que le modèle déterministe optimal 
élaboré à l’aide de la régression. Cette conclusion complète les résultats 
du point 9.2.1. 

Exactement de la même façon que dans le problème de reconnais- 
sance du point 4.5 il existe une fonction 


y (x) = k si paf (x | k) — max {pif (z1D} 


1,..., N), 


minimisant le risque de l’exemple 13 pour tous les x. C’est pourquoi 
il n'existe pas de modèle stochastique de reconnaissance meilleur 
que le modèle déterministe optimal. 

Si, pour tout zx, il existe un ensemble non vide 


Ds={z: r(2|z)=infr(z"]z)}, 


alors toute distribution des probabilités, entièrement concentrée sur 
l’ensemble D,, sera une fonction décisionnelle du système stochasti- 
que optimal, étant donné que pour toute densité de probabilité 
Ô:{z | x) égale à O0 en dehors de D,ona 


p (Ô|x) = | r(z]x) 8 (zx) dr =infr (z]x). 
Dr 


Il existe dans ce cas une infinité de systèmes optimaux, aussi bien 
déterministes que stochastiques, cet tous sont équivalents, car le ris- 
que moyen p (Ô | x) prend, pour tous ces systèmes, une seule et même 
valeur. 

Si la limite inférieure exacte inf r (z | x) n’est pas atteinte pour 
aucune valeur finie z dans le domaine des valeurs possibles de zx, 
alors il n'existe pas de solution optimale. Toutefois, par définition 
de la limite inférieure exacte, il existe toujours des valeurs z, pour 
lesquelles le risque r (3 | x) est aussi proche que l’on veut de la limite 
inférieure exacte. C’est pourquoi, pour tout & =0 arbitraire, il 
existe un ensemble de valeurs z pour lesquelles le risque r (z | x) 
diffère de sa limite inférieure exacte pour un x donné de moins de €: 


Dé = {2: r (2|x) — infr (2'|x) <e}. 
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Pour toute densité de probabilité 6 (z | x) égale à 0 en dehors du 
domaine DE, on a | 


p (ô]x) — | r (z|z) Ô (z]x) dz Linfr (z]x) +e. 
D®€ 
x 

Ainsi, il existe toujours une infinité de solutions, aussi bien détermi- 
nistes que stochastiques, aussi proches que l’on veut de la solution 
optimale (en ce sens que le risque moyen est pour elles aussi proche 
que l’on veut de sa limite inférieure exacte). Du point de vuepratique, 
toutes ces solutions ne différent pas de la solution optimale. C'est 
pourquoi, du point de vue pratique, il existe toujours un ensemble de 
solutions optimales, même quand le problème mathématique d'opti- 
misation n’a pas de solution. 

5.4. Solutions optimales dans une classe donnée de fonctions, 
Si l’on recherche la solution déterministe optimale dans une classe 
limitée de fonctions Y, alors dans le cas général, elle ne peut être 
optimale pour chaque valeur donnée x. Dans de tels cas, il faut, de 
même qu’au point 9.2.1, poser le problème de minimisation du risque 
moyen dans le domaine donné de variations de x. De même qu'au 
point 9.2.1, nous parvenons à cette conclusion que pour toute métho- 
de de calcul de la valeur moyenne de r (z | x) on peut considérer z 
comme la valeur dela variable aléatoire X et minimiser Afr (z (X) |X 


Exemple 15. Dans les conditions de l'exemple 12, la solution détermi- 
niste optimale z (x) dans une classe donnée de fonctions Ÿ est déterminée à partir 
de la condition de minimisation de la quantité 


Mr C1 (nds | 12@—0 JG 12 dx 


5.5. Prise de décisions en présence d’incertitudes. Des mudèles 
de décision optimaux ou proches de l’optimum, minimisant le ris- 
que moyen, ne peuvent être réalisés ou, du moins, étudiés que dans 
le cas où le risque r (z | x) représente une fonction connue. Or, dans 
de nombreux problèmes, il est impossible de déterminer le risque 
comme une fonction connue car il est impossible, pour les mêmes va- 
leurs x et z, de déterminer (de prévoir) les conséquences de la déci- 
sion z exactement, étant donné qu'elles dépendent de nombreux fac- 
teurs inconnus, aussi bien aléatoires que non aléatoires. Si l’action 
conjuguée de tous ces facteurs peut être caractérisée dans un cas con- 
cret par un ensemble fini de nombres, alors il est parfois possible de 
représenter le risque comme une fonction connue de x, z et d’un para: 
mètre vectoriel inconnu 8 (paramétrisation du risque). Nous noterons 
le risque r (z | x, 8). Dans ce cas, pour une fonction décisionnelle don- 
née Ô (z | x), le risque moyen dépendra également de 


p (ô]x, 8) = L (zx, 8) 8 (zIx) dz. (58) 
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La minimisation du risque moyen conduira dans ce cas à une fonction 
décisionnelle optimale 69 (z | x) dépendant également de 6. Cela 
fait qu'une telle fonction décisionnelle optimale ne peut être réalisée. 
Toutefois, on peut utiliser la valeur du risque moyen p (ô8 | x, 8) 
correspondant à la fonction décisionnelle optimale pour l'estimation 
de la qualité des décisions non optimales, prises en cas d’absence 
d'informations complètes relatives à 0. Pour toute fonction décision- 
nelle  (z | x), les coûts découlant de l’indétermination peuvent être 
estimés, pour chaque valeur donnée de 6, par la différence 


A(z 8) =p(b]lzx, 8) — p (6e | x, 6), 
et les coûts relatifs par le rapport 
À (x, 6)/p (ôo | x, 8). 


Deux approches principales sont utilisées pour optimiser les 
décisions dans les conditions d'incertitude. La première est basée sur 
le fait que 6 est considérée comme la valeur d’une certaine variable 
aléatoire 6 et le risque est remplacé par son espérance mathématique 
pour des x et : donnés. La seconde approche est basée sur le fait que, 
pour chaque couple de valeurs zx, z, le risque est remplacé par sa limi- 
te supérieure exacte pour toutes les valeurs possibles de 6. 

En supposant que 6 représente la valeur du vecteur aléatoire 6 
et le signal d'entrée x, la valeur du vecteur aléatoire X, nous précise- 
rons la densité de probabilité a priori & (6) du vecteur 6 et la densi- 
té de probabilité conditionnelle p (x | 6) du vecteur X pour une valeur 
donnée de 6. Dans ce cas, la densité de probabilité a posteriori 
© (0 | x) sera définie conformément à (4.23) et (4.8) par la formule 


© (Or) = — 26) P (218) 59 
IR \æ(n)p(xin)an EL 


L'espérance mathématique du risque pour des valeurs données de x 
et z est définie par la formule 


ri (z|x) = L (zIx, 6) w (O]x) de. (60) 


En remplaçant dans (58) le risque r (x | z, 8) par son espérance mathé- 
matique a posteriori r, (z | x), on peut rechercher les décisions opti- 
males ou proches de l’optimalité, minimisant l’espérance mathéma- 
tique r, (Z | x) pour une valeur donnée x, 


M (Il =Min(Zlaz ll. 
La formule (59) représente une généralisation évidente de la 


formule de Bayes (1.23). C’est pourquoi l'approche basée sur le rem- 
placement du risque par son espérance mathématique a posteriori est 
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habituellement appelée approche bayesienne et les décisions optima- 
les dans ce cas sont appelées décisions bayesiennes. 

On peut caractériser la qualité de la décision bayesienne par l’es- 
pérance mathématique a posteriori de la différence A (x | 6) — 


=p(@1z, 6) —p (Ge | 7, 8) : 
A = \|A(, 6) w (6 | x) d8. 


La faiblesse de l'approche bayesienne réside dans la nécessité de 
définir la distribution a priori & (8), pour laquelle nous n'avons 
habituellement aucune donnée. C’est pourquoi on doit la définir 
arbitrairement ; en particulier, il est habituel de la considérer uni- 
forme dans un domaine suffisamment large. Cette indétermination 
a priori conduit à une certaine indétermination dans les décisions 
optimales correspondantes. Toutefois, si la dimension du vecteur x 
est notablement plus grande que la dimension du vecteur 8 (non 
moins de 20 à 30 fois), alors la densité de probabilité a posteriori 
w (8 |zx) ne dépend pratiquement pas de la densité de probabilité 
a priori & (8) et les décisions optimales et proches de l’optimalité 
que nous avons trouvées par la méthode exposée ne dépendent prati- 
quement pas de & (8). Cela justifie, dans une certaine mesure, l'appro- 
che bayesienne. C’est pourquoi elle est largement utilisée en pratique. 

Le désir de perfectionner l’approche bayesienne, de la libérer de 
son indétermination a priori, a entraîné l'apparition de l'approche 
bayesienne empirique, dont l’idée principale réside dans la réalisation 
d'épreuves supplémentaires pour avoir la possibilité d'estimer w (6 |x) 
sans connaître & (0) [22, 88-911]. 

Si l’on abandonne l'hypothèse suivant laquelle 8 est l’une des 
valeurs possibles d’une certaine variable aléatoire, alors il est natu- 
rel de compter sur le concours de circonstances le plus défavorable. 
Dans ce cas, pour tous les z et z, le risque r (z | x, 0) est remplacé par 
la limite supérieure exacte de l’ensemble des valeurs r (z | x, 6), 
correspondant à toutes les valeurs possibles de 6, c'est-à-dire par la 
quantité 


ro (z1x) — sup r (z[x, 6). 


En remplaçant dans (58) le risque r (z | x, 8) par sa limite supérieure 
re (2 | 0), on peut rechercher les décisons optimales et proches de 
l'optimalité minimisant la valeur moyenne de r, (z | x) pour un zx 
donné p, (Ôô | x) = M [r: (Z | x) | xl. 

Dans cette approche, les décisions optimales minimisent la va- 
leur maximale possible du risque. C'est pourquoi l'approche basée 
sur le remplacement du risque par sa limite supérieure est habituelle- 
ment appelée approche du minimazx, et les décisions optimales obte- 
nues dans ce cas sont appelées décisions minimaz. 
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La qualité de la décision minimax est naturellement caractérisée 
par la limite supérieure de la différence A (x, 8) = p (ô | x, 0) — 
p (Ôe | T, 6) : 

À, (x) = sup A (x, 6). 
6 


L'avantage de l’approche minimax réside dans le fait qu'elle 
n'exige pas la connaissance de quelque fonction arbitraire que ce 
soit. Son défaut réside dans le fait qu'elle est basée sur la prise en 
compte du concours de circonstances le plus défavorable qui, en 
règle générale, est peu probable. C’est pourquoi les décisions minimax, 
minimisant les coûts maximums possibles, conduisent souvent à des 
pertes trop importantes, des gains très faibles, pour les circonstances 
les plus fréquemment rencontrées dans la réalité. En d'autres termes, 
les décisions minimax sont beaucoup trop prudentes. 

5.6. Apprentissage des modèles de prise de décisions. Si l'incerti- 
tude est trop grande, c'est-à-dire si la dispersion des valeurs possi- 
bles du risque pour un zx donné est trop grande pour toute décision z, 
alors on peut poser le problème de l'obtention d’une information 
complémentaire pour prendre la décision afin de diminuer cette incer- 
titude. Plus l'information complémentaire sera grande, plus les 
pertes seront faibles. Toufefois, l'obtention de toute information 
est liée à une certaine dépense de temps et de moyens, ce qui conduit 
à augmenter les pertes. Ainsi, l’obtention d’une information complé- 
mentaire conduit, d'une part, à diminuer les coûts espérés du fait 
des conséquences possibles de la décision prise, et, d’autre part, à aug- 
menter les coûts du fait du prix que l'on doit payer pour l’informa- 
tion. C’est pourquoi se pose le problème de la définition de l’infor- 
mation complémentaire optimale, pour laquelle les coûts espérés 
globaux sont minimums. 

Soient uw le vecteur définissant l'information complémentaire, 
c (u | x) les dépenses pour obtenir cette information u, mesurées dans 
les mêmes unités qui servent à mesurer le risque, c'est-à-dire les 
coûts liés aux conséquences possibles de la décision prise. La fonction 
c (u | x) dépend, dans le cas général, de la valeur du vecteur u, de sa 
dimension caractérisant le volume de l'information obtenue et de la 
nature concrète des variables qui constituent ses coordonnées. 

Dans l'approche bayesienne, 8, x et u sont considérés comme les 
valeurs possibles de certains vecteurs aléatoires O6, Ÿ et U et on 
définit la distribution a priori & (0) du vecteur 6, la distribution con- 
ditionnelle p (x 6) du vecteur À pour un 8 donné et la distribution 
conditionnelle q (4 1 x, 8) du vecteur U pour des valeurs données de 
x ct 0. Après avoir déterminé la densité de probabilité a posteriori 


a (0) p(x10) qg(ulz, 6) 


0x, u) = — 
DE \œ(n)p(zin)g(ulz, n) àn 


? 
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on peut remplacer, dans (58), le risque par son espérance mathémati- 
que a posteriori 


ra (217, u) — Âr (ie, 6) w (8]x, u) dB 


et, après cela, rechercher les décisions optimales ou proches de 
l’optimalité qui, bien entendu, dépendront de u. C’est pourquoi 
nous noterons la fonction décisionnelle optimale par 6, (2 | x). 
Les coûts globaux pour le modèle associé à une telle fonction de déci- 
sion pour des valeurs données de z, 6 et u sont définis par la formule 


R (ô,x, u, 8) =p(ô,lx, u, 8) +c(ul|x) — 
= fr (z|xz, 0) du (zix) dz+c (ulz). (61) 


Toutefois, la valeur du vecteur u, de même que la valeur du paramc- 
tre 6, n’est pas connue à l’avance, avant que l’on obtienne une infor- 
mation complémentaire. C’est pourquoi, pour la prise de décision 
relative à l'obtention d'une information complémentaire, de sa com- 
position et de son volume, il faut déterminer les coûts moyens, c'est- 
àa-dire l'espérance mathématique du coût en tenant compte du carac- 
tère aléatoire des variables © et U. Pour cela, il faut multiplier (61) 
par la densité de probabilité conjointe des variables 6 et U pour un x 
donné et intégrer de 6 à u. Nous obtenons en définitive les coûts 
globaux moyens pour un x donné: 


6, (x) = | ÎR (ô,1x, u, 8)w (O|x) qg(ulx, 8) dO du. (62) 


Dans divers problèmes, la décision relative à l'obtention d'une 
information complémentaire doit être prise avant que l’on connaisse 
les données initiales relatives à la prise de décision, c'est-à-dire le 
vecteur zx. Dans de tels cas, il est nécessaire de déterminer les coûts 
moyens en tenant compte du caractère aléatoire de toutes les trois 
variables 6, U et X. Pour cela, il faut multiplier (61) par la densité 
de probabilité conjointe des variables ©, U et X et intégrer sur 0, 
u et x. Nous obtenons alors les coûts globaux moyens: 


6, — | | ÎR (ô,lr, u, 6)æ (8) p(xl@)q(ulr, 6) dOdrdu. (b5) 


Le problème de la définition du volume optimal et de la composition 
de l'information complémentaire se ramène à la minimisation de la 
quantité (62) ou (63) par le choix de la composition (le contenu con- 
cret) et de la dimension du vecteur u. 

Dans l'approche minimax, l'obtention de l’information complé- 
mentaire a pour effet de réduire les limites des valeurs possibles de 6 
et, par conséquent, conduit à diminuer la limite supérieure du risque, 
c'est-à-dire à remplacer r, (z | x) par la quantité 


r, (zIx, u) re r (z|x, 0), 
u 
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où B (u) est le domaine des valeurs possibles de 6 pour une valeur 
donnée u. La décision optimale que l’on obtient ainsi dépend égale- 
ment de u. C'est pourquoi, de même que dans le cas précédent, nous 
noterons la fonction décisionnelle optimale par 6, (z | x). Les coûts 
globaux pour le modèle associé à une telle fonction décisionnelle pour 
des valeurs données de x, 8 et u sont déterminés par la formule (61). 
En poursuivant la réalisation du principe de l'approche minimax, 
nous effectuerons les calculs pour des valeurs inconnues de Bet ven 
tenant compte du cas le plus défavorable, c’est-à-dire à partir des 
coûts globaux maximums: 
O2 (x) Sup SnP R (ô,1x, u, 6). (64) 
BEB(u) 
Si la décision relative à l’ etes d’une information complémentai- 
re est adoptée avant que l'on connaisse x, alors la quantité 0, (x) 
doit être remplacée par la quantité 
6, = sup sup À (Ô,]x, u, 6). (65) 
x, u 0€B(u) 

Le problème de la définition de la composition et du volume 
optimal de l'information se ramène dans ce cas à la minimisation 
de la quantité (64) ou (65) par le choix de sa composition et de la 
dimension du vecteur u. 

L'amélioration de la qualité de la décision par l'introduction 
dans le modèle d'une information complémentaire — du vecteur 
u — représente l'apprentissage du modele de décision. L'optimisa- 
tion du processus d'apprentissage est atteinte par la minimisation 
de l’une des expressions (62)-(65) en fonction de la méthode d'éla- 
boration du modèle et des conditions de son application (apprentis- 
sage avant l'application ou apprentissage pendant le processus 
d'application après l'observation de chaque valeur successive de x). 
L'approche bayesienne du problème d'apprentissage des systèmes 
automatiques est développée dans [75-80]. 

Outre les approches que nous avons considérées de l’apprentissage 
du modèle de prise de décision, d'autres approches, basées sur diffe- 
rentes méthodes d'estimation des paramètres inconnus, sont égale- 
ment possibles. Cela rend possibles aussi d’autres positions du 
problème et d’autres méthodes de résolution du problème d'optimi- 
sation du processus d'apprentissage du modèle. 

En théorie de la décision, outre les problèmes considérés d'opti- 
misation sans contraintes, on rencontre également des problèmes 
d'optimisation des décisions en présence de diverses contraintes. 
Les contraintes peuvent être imposées à l’ensemble des solutions 
admissibles, comme dans l'exemple 15, ou au domaine des valeurs 
admissibles de z ou encore sur certaines fonctions quelconques de la 
forme s (2 | x) (par exemple sur les autres coordonnées du vecteur du 
risque). Les méthodes de résolution de ce genre de problèmes sont 
également élaborées dans la théorie moderne de la décision. 


ANNEXES 


1. La fonction impulsion delta et ses dérivées 


Pour présenter la notion de fonction impulsion delta par passage à la 
limite, considérons Ja fonction 


1 : 
EYE S1 \r|<i, 
0 si |r|>lL. 


Cette fonction est appelée dans les applications impulsion unité rectangulaire. 
11 est évident que pour tout  >lona 


€ 0 


\ Ôy (x) dr = Î Ô, (x) dr. (2) 
0 e 


Ô | (1) 


Soit  (r) une fonction continue arbitraire. Calculons les intégrales 
b 


PE) dr, | QC) Ë (eu) dr. 


a 


© 


Nous avons alors, en vertu de (1), pour tout u € (a + !, b — Î) 
b b x u+l 
| p (x) Ôs (u—x) ar= | P()8(z—u)dr= | p (x) dx. 
a a u—l 


En appliquant le théorème de la moyenne à cette dernière intégrale, nous obte- 


nons 
b 


b 
À ot) 62) dre À pe) Bu dr = q (x) (3) 


où ro Eu — 1, u + 1). Pour tout ué (a — 1, b + 1), ces deux intégrales sont 
égales à 0. Nous obtenons ainsi 


pU)ôra—z)dr= | p(2)6 (e—a)dz= + p (x6), 
(4) 


p (x) 81(b— x) dr == 


Sn) GS) © 
Qu) Qu) ©” 


p() En (0) de = p (15) 


où roE (a, a+ ll), x E (b — I, b). 


AAA ANNEXES 


Passons maintenant à la limite dans les formules précédentes quand ! —+ 0. 
11 est clair que 6, (x) n’a pas de limite au sens habituel du terme. Toutefois, 
toutes les intégrales dans (3) et (4) ont des limites entièrement déterminées. 

En raisonnant formellement, nous pouvons conclure que ô (z) = 0 pour tout 
z 5 0, 6 (0) = , et cela de sorte que l'aire de la pointe vers l'infini de la 
fonction 6 (rx) à l’origine des coordonnées soit rs à 1. Il est clair que 6 (x) 
n'existe pas en tant que fonction habituelle. Elle se rapporte à la classe des 
fonctions généralisées. 

Le passage formel à la limite dans (3) et (4) quand ! —+ 0 conduit aux rela- 
tions 


b bd 
| p(z)ô(u—7r) dr = | p(r)Ô(r—u)dr=qlu), uEl(a. b), (5) 


EU) O(a—a)dr= + q (a), 


ns) © 


b 

| (x) Ô(a—r)dr = 
: x (6) 
| p (x) Ô (b—r)dr = | @(r) Ô(z—b) dr œ (b). 


Quand u é[a, b], les deux intégrales dans (5) sont égales à 0. 
En posant dans la première formule de (6) «a = 0, b = & et dans la seconde 


a — —æe, b — 0, nous obtenons pour q (x) == 1: 
e 0 
| Ô(x) dr — | (x) dr= + pour tout e > 0. (7) 
0 _£ 


La fonction à (x) représente la limite de la fonction 6, (x) quand ! + 0 
en ce sens que, pour toute fonction continue @ (x), on a 


À @ 6236 (2) dz= im À tx) ôr (a) a. (8) 


Dans de tels cas, on dit que ô, (x) converge faiblement vers 6 (r) et que 6 (x) 
représente la limite faible de la fonction 6, (x). 

Ainsi, on peut définir la fonction généralisée 6 (x) d'une manière entière- 
ment rigoureuse en tant que limite faible de la fonction usuelle 6; (x). La fonc- 
tion 6 (x) ainsi définie est appelée fonction impulsion delta ou, succinctement, 
fonction delta *). Les formules (5), (6) et (7) représentent les propriétés caracté- 
ristiques de la fonction 6 

Remarquons que les intégrales dans (5)-(8) représentent, par définition, les 
limites des intégrales correspondantes, contenant la fonction 6; au lieu de la 
fonction à quand ! —+ 0. C'est uniquement de cette façon que l’on doit compren- 
dre les intégrales des fonctions généralisées. 


. *) La fonction 6 a été introduite dans le domaine scientifique pour la pre- 
mière fois par le physicien anglais bien connu Dirac. C'est pourquoi on appelle 
souvent la fonction à, fonction de Dirac. 
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I1 découle de (5) et (6), que si (x) = 1, les intégrales des fonctions delta, 
étendues aux limites de —o à u, représentent la fonction échelon unité: 


0 si u<oO0, 


\ ô (x) au 1/2 si u—0, (9) 
ss 1 si u > 0. 


Il en découle que la fonction delta représente la dérivée de la fonction échelon. 

Exactement de la même façon, en pIAnABE une fonction 6, (x) paire possé- 
dant des dérivées continues jusqu’à l’ordre p inclus, nous définissons la dérivée 
de la fonction delta d'ordre p, comme la limite faible de la fonction 6!P? (x). 
Dans ce cas, pour toute fonction œ (x), continue avec ses dérivées jusqu’à l’ordre 
» inclus, on aura la formule 


[e, 


ETICCE CO AEUCICL SONT OO 


— 0 


Cette formule peut être adoptée pour la définition de la p-ième dérivée de la 
fonction delta. 

11 découle de (10) que pour tout u € (a, b) et pour toute fonction arbitraire 
(x) continue avec ses dérivées jusqu'à l'ordre p inclus, 


b b 
| (zx) Ô(P)(u— zx) dr =(— 1)? | p (x) Ô(P) (z—u) dr = p (P) (u). (11) 


a 


Ces formules s'obtiennent également de (5) par une dérivation formelle par rap- 
port à u. Ainsi, dans les intégrales contenant la fonction delta ou ses disc 
on peut dériver par rapport au paramètre sous le signe d'intégration autant de 
fois que l’on veut. 

On définit de façon analogue la fonction delta d’un argument vectoriel. Il 
est évident que la fonction delta de l'argument vectoriel x —{zx,, . .., zh) 
peut être définie comme le produit de fonctions & de toutes les coordonnées du 
vecteur x: 


Ô (x) = Ô (x)... Ô (zh). (12) 


Etant donné que la fonction delta, en vertu de (7), possède la propriété (2.11) 
d'une densité de probabilité, alors on peut la considérer comme la limite faible 
de toute densité de probabilité paire quand la distribution qui la définit se 
resserre autour de l'origine des coordonnées: 


ô (x) er hf (kz), (13) 


où f (y) est une densité de probabilité quelconque. 

Dans les applications, on doit souvent utiliser la représentation de la fonc- 
tion delta par l'intégrale de Fourier. Pour exprimer la fonction delta par une 
intégrale de Fourier, remarquons que toute fonction continue œ (x), differente 
Le 0 uniquement sur un intervalle fini, peut être représentée par l'intégrale de 

ourier : 


où 


1 


plu)=s— \ dh | p (x) ei u) qz. 
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En intervertissant ici formellement l’ordre d'intégration, nous trouvons 


00 œ 
| 
p(u)= | p (x) [—— | eiMx-u) a? | dr. 
© . — 00 
En comparant cette formule à (5) pour a — —,b — et en prenant en consi- 


dération le fait que ces deux formules sont vérifiées pour toute fonction œ (x) 
du type considéré, nous parvenons à la conclusion que 


b(r=-— | eix qn. (14) 


— 0 


En répétant ces raisonnements pour le cas de l’argument vectoriel r, nous 
obtenons une représentation de la fonction ô du vecteur x à #7 dimensions par 
l'intégrale de Fourier: 


ô (x) = a | ALSE dÀ, (15) 


où les vecteurs x et À sont représentés sous la forme de matrices-colonnes. Cette 
formule s'obtient également à partir de (14) si l’on exprime la fonction 6 du 
vecteur x par la formule (12). . 

Les intégrales dans (14) et (15) sont divergentes. Il est clair que la fonction 
delta ne peut s'exprimer par une intégrale convergente, étant donné que toute 
Lt convergente, dépendant d'un paramètre, représente une fonction 
usuelle de ce paramètre, alors que la fonction delta représente une fonction 
généralisée. 


2. Quelques intégrales définies 


Lors de l'étude de la distribution normale, on doit utiliser les formules 


Î RUE n° 
Nt—— cis nr 
| e ‘*  di— er, (1) 
D ETES ST ——— lT 
( ue 2 Taey/ CD LE : 
Ci 


D 3 


où n est dans le cas général une grandeur complexe (scalaire dans (1) ct vectoriel- 
le dans (2)), c est une grandeur complexe dont la partie réelle est positive, C 
est une matrice symétrique à éléments complexes, dont les parties réelles for- 
ment une matrice strictement définie positive, | C | est le déterminant de la 
matrice C. 

Pour établir la formule (1), appliquons la méthode de dérivation de l’inté- 
grale par rapport à un paramètre. Nous poserons pour cela 


ca 1 
N=— cts 


I (n)= | e  ‘* dt, 
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En dérivant cette formule par rapport au paramètre n et en intégrant par parties, 
nous trouvons 


co Î 00 co Î 
nt-— ci -—cis nt-— ct 
l'(n)= | te g at=—+ | el de * = | e dt, 
— 00 — © 


ou encore 
r (n)= + T (n). (3) 


Nous avons ainsi obtenu une équation différentielle pour 7 (n). Pour déterminer 
entièrement 7 (n), il faut encore adjoindre à l'équation (3) la condition initiale. 
Pour définir la condition initiale, il suffit de calculer l'intégrale Z (n) pour une 
valeur quelconque du paramètre n. Le plus simple est de calculer 


I (0)=— | oc (4) 


Comme cette intégrale ne dépend pas de la notation de la variable d'intégration, 
on peut également écrire la formule (4) sous la forme 


_ { 
I (0)= | se (5) 


En multipliant terme à terme les égalités (4) et (5), nous obtenons 


e + cts ce est 
m@= | °c . a (ec *  ds=— 


— — 0 
. . see ss cts Ft. —. (t2+s2) 
=[{f<7 as} e 7 a= | (+7 dt ds. (6) 
— © —-œ —œo —00 


Considérons tout d’abord le cas d'une grandeur c réelle (et, par conséquent, 
positive). Dans ce cas, l'intégrale double (6) se calcule aisément par un passage 
au système de coordonnées polaires. En posant 

Vct=pcose, Ves=psing 


et en ayant en vue que 


ôt  ôt { P_ 
A ee — COS ——— sin p 

_ 0p 09 FL Ve Ve _p 
LE set 1 Sin Œ p cos p mure 
ôp  ô9 Ve Ve 


nous obtenons 
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Nous eù tirons 


— cit "Dr 
I (0) = | e ? d— Ze. (7) 
00 
Considérons maintenant le cas d'une grandeur c complexe. En posant 
c—lclei®, t— e7%/%x, nous ramenons l'intégrale (4) à la forme 
EUR Si —1ciT3 
ro=e À | 67° "a, (8) 
-meip/2 


où l'intégration est effectuée suivant une droite du plan SR D passant par 
l’origine des coordonnées sous un angle de @/2 par rapport à l'axe réel. Pour 
calculer l'intégrale ainsi définie, considérons sur le plan complexe de la variable 


Im{t} re 19/2 


0 R Re{t} 


Fig. 38 


+ un contour fermé constitué d’un segment de l’axe réel (0, R), de l’arc de cercle 


(R, Reïi®!/?) de rayon R et du segment (Rei%/2, 0) de la droite suivant laquelle 
on effectue l'intégration dans (8) (fig. 38). Comme la fonction à intégrer est une 
fonction analytique n’admettant pas de points singuliers dans le domaine limité 
par ce contour, il en résulte que l'intégrale sur ce contour est égale à O pour 
tout À. Or, comme Re{c} > 0 et que par conséquent | q | << x/2 et Re{r?} > 0, 
l'intégrale suivant l'arc de cercle (R, Re'?/2) tend vers 0 quand À —+ co. C’est 
pourquoi, quand À — œ, nous obtenons l'égalité 


00 1 0 
7 ICIT: -IciT: 
S dr + S t=0, 
0 œeip/2 
d'où il découle que 
meig/2 î 00 
cit: — ICIT* 
\ e © dt = | e ? dre 
0 0 
Nous parvenons également à la conclusion que 
0 0 


ici: ici 
e * dt = e dt. 


_ocip/2 “oo 


to 
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et nous avons, par conséquent, 


coeip/2 


— 0ocip/2 


En portant cette expression dans (8) et en utilisant la formule (7), nous obtenons 


iQ er 
Sa 27 EE 
di [el = 


Ainsi, la formule (7) est valable également pour toute grandeur complexe c 
dont la partie réelle est positive. 

En intégrant l'équation différentielle (3) pour la condition initiale (7), 
nous obtenons 


I (n)= 


ce qui démontre la formule (D 
Pour démontrer la formule (2), ramenons la matrice C par une transforma- 
tion orthogonale à une forme diagonale. Nous obtenons ainsi ATCA = À où A 
est une matrice diagonale dont les éléments sont les valeurs propres 24, .. 
» Àn de la matrice C (n désigne la dimension du vecteur t dans (2)et |’ ordre 
de rs matrice C), et À est une matrice orthogonale ATA = I. La ARAOTAGE 
= AË, t = As donne nt = ETATA4s = ETs, 1TCt = sTATCAs = STAs, et 
l'intégrale (2) est ramenée à la forme (compte tenu de l'égalité | À | = 1): 
se nTr-À tTct … ile sT As de ss se EE: 
| e g dt — | e 


g ds I] | e u ds}. 


— 00 — 00 k=1 —0o0 


Ainsi, l'intégrale (2) est ramenée au produit des intégrales du type (1). En appli- 
quant la formule (1), nous trouvons 


RE PE ER 7 
je asp 7 
À... Àn 


00 

En portant ici op ë = An = ATn et en tenant compte du fait que 
le Ps des valeurs propres d’une nue est égal à son déterminant, 
Ae..Âm = CI, et que AA-1AT = (4AAT)-1 = C-1, nous obtenons la for- 


mule @: 


l/o 29—0244 
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3. Tables 


Table 1 


Fonction de Laplace © (u)— Va ee dt 


0,0 0,0000 | 0040 | 0080! 0120! 0160! 0199] 0239| 0279] 0319 | 0359 
0,1 0398 | 0438 | 0478| 0517| 0557! 05961 0636| 0675] 0714] 0753 
0,2 0793 | 0832 | 0871| 0910! 0948! 0987| 1026] 1064! 1103| 1141 
0,3 1179 | 1217 | 1255| 1293] 1331| 1368| 1406| 1443| 1480}! 1517 
0,4 1554 | 1591 | 1628] 1664] 1700| 1736| 1772] 1808] 1844| 1879 
0,5 1915 | 1950 | 1985] 2019] 2054| 2088| 2123| 2157] 2190| 2224 
0,6 2257 | 2291 | 2324] 2357] 2389] 2422] 2454] 2486| 2517| 2549 
0,7 2580 | 2611 | 2642| 2673| 2703] 2734] 2764] 2794] 2823| 2852 
0,8 2881 | 2910 | 29391 2967| 2995| 3023| 3051] 3078| 3106 | 3133 
0,9 3159 | 3186 | 32121 3238| 3264| 3289] 3315] 3340| 3365 | 3339 
1,0 3413 | 3337 | 34611 3485] 3508| 3531| 35541 3577| 3599] 3621 
1,1 3643 | 3665 | 3686| 3708] 3729! 3749| 3770| 3790| 3310 | 3330 
1,2 3349 | 3869 | 3888| 3907| 3925! 3944| 39062] 3980| 3997 | 4015 
1,3 4032 | 4049 | 4066| 4082] 4099! 4115| 4131| 4147| 4162] 4177 
1,4 4192 | 4207 | 4222] 4236| 4251| 4265| 4279] 4292| 4306 | 4319 
1,5 4332 | 4345 | 4357] 4370| 4382] 4394| 4406] 4418| 4429} 4441 
1,6 4452 | 4463 | 44741 4484| 44951 4505| 4515] 4525] 4535| 4545 
1,7 4554 | 4564 | 4573] 4582] 4591| 4599! 46081 4616| 4625 | 4633 
1,8 4641 | 4649 | 46561 4664! 4671| 4678! 4686| 4693] 4699| 4706 
1,9 4713 | 4719 | 4726| 4732| 4738| 4744] 4750] 4756| 4761] 4767 
2,0 47125 1471718 | 47831 | 47882 | 47932 | 47981 | 48030 | 48077 | 48124 |48169 
2,1 48214 148257 | 48300 | 48341 | 48382 | 48422 | 48461 | 48500 | 48537 |48574 
2,2 48610 148645 | 48679 | 48713 | 48746 | 43778 | 48809 | 48840 | 48870 |48899 
2,3 48928 |48956 | 48983 | 49010 | 49036 | 49061 | 49086 | 49111 | 49135 149158 
2,4 49180 |19202 | 49224 | 49245 | 49266 | 49286 | 49305 | 49324 | 49343 |49361 
2,9 49379 149396 | 49413 | 49430 | 49446 | 49461 | 49477 | 49492 | 49506 |49520 
2,6 49534 149547 | 49560 | 49573 | 49585 | 49597 | 49609 | 49621 | 49632 |49643 
2,7 49653 149664 | 49674 | 49683 | 49693 | 49702 | 49711 | 49720 | 49728 |49736 
2,8 49744 149752 | 49760 | 49767 | 48774 | 49781 | 49788 | 49795 | 49801 149807 
2,9 49813 149819 | 49825 | 49831 | 49836 | 49841 | 49846 | 49851 | 49856 149861 


| 0,49865 Loos sos ose 


49966 | 49977 | 49989 | 49993 Loos 


4,0 | 0,499968 
4,9 | 0,499997 
5,0 | 0,49999997 
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Table 2 
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L 1 
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OUT Ur © D = © 


ee 


… + = L 1 


. ss + + 


. + = - 


+. = Æ 
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+ 
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à © © © C0 C9 C9 C9 ED EC © D D D D NN D D D NE > +2 2 = D pù Eh pù > OOCOCO OO0O0O0%O©O 
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—-0,3989 
+0,3970 
--0,3910 
—+0,3814 
—+0,3683 
+0,3521 


+0,3332 
+0,3122 
—+0,2897 
+-0,2661 
—+0,2420 


+0,2179 
—+-0,1942 
+0,1714 
+0,1497 
+0,1295 


+0,0175 


+-0,0136 
—+0,0104 
—+-0,0079 
+0, 0060 
—+-0,0044 


+-0,0033 
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Dérivées de la fonction de Laplace 


Du) 


0,0000 
—0,0397 
—0,0782 
—0,1473 
—0,1760 


—0, 1999 
—0,2186 
—0,2395 
—0,2420 


—0,2396 
—0,2096 
—0,1943 


—0,1775 
—0,1599 
—0,1421 
—0,1247 
—0, 1080 


—0,0924 
—0,0652 
—0,0538 
—0,0438 


—0,0353 
—0,0281 
—0,0222 
—0,0173 
—0,0133 


—0,0101 
—0,0057 
—0 ,0042 
—0,0030 


—0,0022 
—0,0016 
—0,0011 


? 


—0,0005 


+-0,0458 
+-0,0854 
—+.0,1182 
+0,1437 
+-0,1619 


-0,1730 
+-0,1777 
+-0,1769 
+0,1713 
+0,1620 


+0, 0920 
—+-0,0782 


+0,0354 


+-0,0281 
+ 0,0220 
+0,0170 
—+0,0130 
—+-0,0098 


—+0,0073 
+0,0054 
-0,0039 
—+-0,0028 
+0 ,0020 


IV 
@(1") 


0 ,0000 
+-0,1187 
+0,2315 
+-0,3330 
—+0,4184 
+0,4841 


+-0,5278 


+0, 4839 


+0 ,4290 
+0,3635 
+0,2918 
+0,2180 
+0,1457 


+-0,0781 
+0,0176 
—0,0341 
—0,0760 
—0,1080 


—0,1436 
—0, 1492 
—0,1483 
—0 ,1424 


—0,1328 
—0,1207 
—0,1073 
—0,0934 
—0,0798 


—0,0552 
—0 ,0444 
—0 ,0359 
—0,0282 


—0,0168 
—0,0127 
—0,0095 
—0,0070 


(V) 
Du) 


+1 ,1968 
+1,1671 
1 ,0799 
+0,9413 
+.0,7607 
+0,5501 


+ 0,3231 
+0,0937 
—0,1247 
—0,3203 
—0,4839 


—0,6091 
—0,6926 
—0,7341 
—0,7364 
—0,7042 


+0, ,0694 


+-0,0570 
+-0,0460 
+-0,0365 
+-0,0284 
+0,0218 


Table 2 (suite) 


(VI) 
Du) 


0,0000 
—0,5919 
—1 ,1420 
—1,9777 
—2,2114 


—2,3052 
—2,2601 
—2 ,0880 
—1,8095 


+0, 4736 


+0,7181 
+0,8870 
—-0,9809 
+-1,0058 
+-0,9718 


+0,8915 


—0,0798 


—0, 1140 
—0,1332 
—0,1404 
—0,1384 
—0, 1300 


—0,1176 
—0, 1030 
—0,0878 
—0,0594 
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Table 4 
Limites bilatérales de la distribution du khi-deux : 
valeurs de e4 définies par l'équation 
kJ(—e )2+ 
PR (z) d:=u *) 
k/U+e 2 
St lo,s | o,6 | 0,7 | 0,8 | 0,9 | 0.05 | 0.98 | 0,99 |u,9u9 
1 0,568 | 906 | 1,602 | 2,946 | 6,923 

2 367 | 473 | 0,678 | 1,125 | 2,086 | 3,400 | 5,857 | 8,500 
3 290 | 370 482 | 0,730 | 1,270 | 1,932 | 3,000 | 4,200 | 9,00 
4 248 | 306 398 563 | 0,941 | 1,382 | 2,056 | 2,700 | 5,00 
) 221 | 277 348 475 738 | 1,104 | 1,594 | 2,000 | 3,80 
6 200 | 251 308 416 623 | 0,918 | 1,306 | 1,650 | 3,00 
7 185 | 232 290 380 976 800 | 1,143 | 1,393 | 2,50 
8 173 | 216 269 354 516 713 | 0,986 | 1,225 | 2,05 
9 162 | 202 252 329 476 650 889 | 1,094 | 1,75 
10 153 | 192 239 304 442 596 814 | 0,980 | 1,50 
12 140 | 176 218 276 388 527 700 840 | 1,30 
14 130 | 162 200 252 357 468 620 740 | 1,14 
16 122 | 150 188 236 325 422 564 671 | 1,02 
18 115 | 143 177 223 297 390 500 600 | 0,92 
20 108 | 136 168 210 282 370 480 967 85 
25 096 | 122 148 187 247 317 408 485 70 
30 088 | 111 137 172 226 281 369 425 60 
35 085 | 101 127 156 207 261 347 400 90 
40 076 | 095 119 146 193 242 312 379 2 
45 071 | 089 112 139 184 228 288 350 48 
50 068 | 084 105 133 174 212 270 311 45 
60 062 | 077 095 122 155 193 242 283 40 
70 057 | 072 088 112 145 180 222 290 37 
80 054 | 067 082 103 138 167 200 236 35 
90 051 | 063 078 096 131 151 192 220 32 
100 048 | 060 074 092 125 146 184 200 30 
150 040 | 050 060 075 096 125 146 167 | 0,225 
200 034 | 042 053 065 084 100 133 144 190 
250 031 | 038 048 058 076 091 115 135 175 
500 022 | 028 031 041 054 064 077 085 125 
1000 016 | 019 025 037 044 047 056 059 080 


*) (f—-e,), = max (1-e,, 0). 
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Table 6 *) 


Quantiles supérieurs à 5 % et 1 % de la distribution F: 
valeurs de fs définies par l'équation 


la | 
Fir (fa) = | fin () df=a 
0 
Valeurs de fo,s5 (quantiles supérieurs à 5 %) 


ipfalsfalsfsteleælul 


161 ,40/199,50/215,701224,601230,201234,001238 , 901243 ,90/249,00/254,30 
18,51! 19,00] 19,16| 19,25] 19,30] 19,33] 19,37] 19,41! 19,45! 19,50 


1 

9 

3 10,13 9,55] 9,28] 9,12] 9,01! 8,94 8,84l 8,74] 8,64] 8,53 

4 7,111 6,94] 6,59 6,39] 6,26] 6,16! 6,04! 5,91] 5,77| 5,63 

5) 6,61| 5,79| 5,41! 5.19] 5,05] 4,95! 4,82] 4,68] 4,53] 4,36 

6 5,99] 5.14] 4,76| 4,53] 4,39] 4,28] 4,15] 4,00! 3,84) 3,67 

7 5,59] 4,74] 4,35] 4,12] 3,97| 3,87| 3,73] 3,57| 3,41] 3,23 

8 5,32] 4,46| 4,07] 3,84] 3,69] 3,58| 3,44 3,28| 3,12] 2,93 

9 5,12] 4.26| 3,86] 3,63| 3,48] 3,37| 3,23] 3,07| 2,90| 2,71 
10 4,96| 4,10 3,711 3,48] 3,33] 3,22] 3,07] 2,911 2,74] 2,54 
11 4,841 3,98] 3,59] 3,36] 3,20] 3,09] 2,95] 2,79] 2,61] 2,40 
42 4,175 3,88] 3,49] 3,26] 3,111 3,00| 2,85] 2,69] 2,50] 2,30 
13 4,67] 3,80| 3,411 3,18] 3,02] 2,921 2,77] 2,60] 2,42] 2,21 
14 4,60[ 3,74| 3,34] 3,111 2.96] 2,85] 2,70] 2,53] 2,35] 2,13 
15 4,541 3,68] 3,29] 3,06] 2,90] 2,79] 2,64] 2,48] 2,29] 2,07 
16 4,49 3,63[ 3.24] 3,01! 2,85] 2,74] 2,59] 2,42] 2,24) 2,01 
17 4,45] 3,99 3,20] 2,96[ 2,811 2,70] 2,55] 2,38] 2,19] 1,96 
18 4,411 3,99 3,16! 2,931] 2,77] 2,66! 2,51! 2,341 2,15] 1,92 
19 4,38] 3,92] 3,13] 2,90|[ 2,74] 2,63] 2,48] 2.31] 2,11| 1,88 
20 4,35] 3,49] 3,10] 2,87| 2,71| 2,60| 2,45] 2,28] 2,08| 1,54 
21 4,932] 3,47] 3,07] 2,84] 2,68] 2,57] 2,42] 2,25] 2,05] 1,81 
22 4,30] 3,44| 3.05] 2,82] 2,66| 2,55] 2,40| 2,23] 2,03] 1,78 
23 4,28] 3,42] 3,03] 2,80] 2,641 2,53] 2,38] 2,20] 2,00] 1,76 
24 4,26 3,40| 3,01! 2,78] 2,62] 2,51| 2,36] 2,18] 1,981 1,73 
25 4,24] 3,38] 2,99] 2,76] 2,60] 2,49] 2,34] 2,16] 1,96] 1.71 
26 4,22] 3,311 2,98] 2,74] 2,59] 2,47] 2,32] 2,15] 1,95] 1,69 
2 4,211 3,35| 2,96| 2,73] 2,57] 2,461 2,30] 2,13] 1,93] 1,67 
28 4,20] 3,34] 2,95] 2,71] 2,56] 2,44] 2,29] 2,12] 1,91] 1,65 
29 4,18] 3,33] 2,93] 2,70] 2,54] 2,43] 2,28] 2,10] 1,90] 1,64 
30 4,17] 3,32] 2,92] 2,69) 2,53] 2,42] 2,27| 2,09) 1,89] 1,62 
40 4,08| 3,23] 2,84] 2,61| 2,45] 2,34] 2,18] 2,00] 1,79] 1,51 
60 4,00| 3,15] 2,76| 2,52] 2,37] 2,25] 2,10] 1,92] 1,70] 1,39 
120 3,92! 3,07| 2,68] 2,45] 2,29] 2,17] 2,02] 1,83] 1,61! 1,25 
CO 3,84] 2,99) 2,60] 2,37] 2,21] 2,09] 1,94] 1,75] 1,52! 1,00 


*) Cette table est ompruntée à [35]. 
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Table 6 (suite) 


Valeurs de f,,59 (quantiles supérieurs à 1 %) 


1 4052 | 4999 
2 198,49 199,00 199,17 | 99,25 
3 |34,12 | 30,81 | 29,46 | 28,71 
4 |21,20 | 18,00 | 16,69 | 15,98 
5 116,26 | 13,27 | 12,06 | 11,39 
6 113,74 | 10,92 | 9,78 | 9,15 
7 [12,25 | 9,55 | 8,45 | 7,85 
8 |11,26 | 8,65 | 7,59 | 7,01 
9 |10,56 | 8,02 | 6,99 | 6,42 | 6,06 | 5,80 | 5,47 | 5,11 | 4,73 
10 |10,04 | 7,56 | 6,55 | 5,99 | 5,64 | 5,39 | 5,06 | 4,71 | 4,33 
11 9,65 | 7,20 | 6,22 | 5,67 | 5,32 | 5,07 | 4,74 | 4,40 | 4,02 | 3,60 
12 9,33 | 6,93 | 5,95 | 5,41 | 5,06 | 4,82 | 4,50 | 4,16 | 3,78 | 3,36 
13 9,07 | 6,70 | 5,74 | 5,20 | 4,86 | 4,62 | 4,30 | 3,96 | 3,59 | 3,16 
14 8,86 | 6,51 | 5,56 | 5,03 | 4,69 | 4,46 | 4,14 | 3,80 | 3,43 | 3,00 
15 8,68 | 6,36 | 5,42 | 4,89 | 4,56 | 4,32 | 4,00 | 3,67 | 3,29 | 2.87 
16 8,53 | 6,23 | 5,29 | 4,77 | 4,44 | 4,20 | 3,89 | 3,55 | 3,18 | 2,75 
17 8,40 | 6,11 | 5,18 | 4,67 | 4,34 | 4,10 | 3,79 | 3,45 | 3,08 | 2,65 
18 | 8,28 | 6,01 | 5,09 | 4,58 | 4,25 | 4,01 | 3,71 | 3,37 | 3,00 | 2,57 
19 8,18 | 5,93 | 5,01 | 4,50 | 4,17 | 3,94 | 3,63 | 3,30 | 2,92 | 2,49 
20 8,10 | 5,85 | 4,94 | 4,43 | 4,10 | 3,87 | 3,56 | 3,23 | 2,86 | 2,42 
21 8,02 | 5,78 | 4,87 | 4,37 | 4,04 | 3,81 | 3,51 | 3,17 | 2,80 | 2,36 
22 7,94 | 5,72 | 4,82 | 4,31 | 3,99 | 3,76 | 3,45 | 3,12 | 2,75 | 2,31 
23 7,88 | 5,66 | 4,76 | 4,26 | 3,94 | 3,71 | 3,41 | 3,07 | 2,70 | 2,26 
24 7,82 | 5,61 | 4,72 | 4,22 | 3,90 | 3,67 | 3,36 | 3,03 | 2,66 | 2,21 
25 7,71 | 5,57 | 4,68 | 4,18 | 3,86 | 3,63 | 3,32 | 2,99 | 2,62 | 2,17 
26 7,72 | 5,53 | 4,64 | 4,14 | 3,82 | 3,59 | 3,29 | 2,96 | 2,58 | 2,13 
27 7,68 | 5,49 | 4,60 | 4,11 | 3,78 | 3,56 | 3,26 | 2,93 | 2,55 | 2,10 
28 7,64 | 5,45 | 4,57 | 4,07 | 3,75 | 3,53 | 3,23 | 2,90 | 2,52 | 2,06 
29 7,60 | 5,42 | 4,54 | 4,04 | 3,73 | 3,50 | 3,20 | 2,87 | 2,49 | 2,03 
30 7,56 | 5,39 | 4,51 | 4,02 | 3,70 | 3,47 | 3,17 | 2,84 | 2,47 | 2,01 
40 7,31 | 5,18 | 4,31 | 3,83 | 3,51 | 3,29 | 2,99 | 2,66 | 2,29 | 1,80 
60 7,08 | 4,98 | 4,13 | 3,65 | 3,34 | 3,12 | 2,82 | 2,50 | 2,12 | 1,60 
120 6,85 | 4,79 | 3,95 | 3,48 | 3,17 | 2,96 | 2,66 | 2,34 | 1,95 | 1,38 
CO 6,64 | 4,60 | 3,78 | 3,32 | 3,02 | 2,80 | 2,51 | 2,18 | 1,79 | 1,00 
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Table 7 
Distribution limite de Kolmogorov 


K)= 2, (1) eve 


V= — 0 


. = © + 


RL 1 


de et De De De Je De Dee Dee 2 OO O0O0O00O 


2 œ © © Ss % 


3 
4 
5) 
6 
7 
8 
9 
0 
1 
2 
3 
4 
5) 
6 
7 
8 
9 


9988 
99970 | 99987 | 99995 199998 
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